Estrategias para identificar oclusiones y planificación ...

Estrategias para identificar oclusiones y planificación monocular para una mejora de la percepción visual de la escena

Pablo Gil Vázquez

Estrategias para identificar oclusiones y planificación

monocular para una mejora de la percepción visual de la escena.

TESIS DOCTORAL PARA LA OBTENCIÓN DEL GRADO DE DOCTOR

Autor:

D. Pablo Gil Vázquez

2008

Programa

INTERUNIVERSITARIO EN AUTOMÁTICA Y ROBÓTICA (0605)

Estrategias para identificar oclusiones y planificación

monocular para una mejora de la percepción visual de la escena.

MEMORIA PARA LA OBTENCIÓN DEL GRADO DE DOCTOR

Autor:

D. Pablo Gil Vázquez

Directores:

Dr. Fernando Torres Medina

Dr. Oscar Reinoso García

Alicante, 2008

A mis padres

“Doing the same thing over and over again and expecting different results”. (Si buscas resultados distintos, no hagas siempre lo mismo).

Albert Einstein.

“Conócete, acéptate y supérate” San Agustín.

Agradecimientos

Como viene siendo habitual, no quería dejar pasar más líneas de esta tesis sin dedicar unas

palabras de agradecimiento a algunas personas y compañeros. En primer lugar, agradecer a mis

directores de tesis Dr. Fernando Torres Medina y Dr. Oscar Reinoso García, que me hayan guiado en

el desarrollo de esta tesis, en mi labor investigadora en general, y me hayan permitido trabajar con

ellos en varios proyectos de investigación. Agradecerle, en primer lugar a Dr. Oscar Reinoso, mi

primera participación en un proyecto de investigación, gracias a un contrato en la Universidad Miguel

Hernández de Elche, dónde realice mis primeros pasos en mi labor investigadora. También agradecer

al Dr. Fernando Torres, todo el apoyo recibido en estos años en la Universidad de Alicante. Fernando,

gracias por permitirme trabajar en muchos de los proyectos que has dirigido, sin los cuales no hubiera

sido posible la aportación económica necesaria para la presentación de ponencias en congresos, la

publicación de artículos o poder disponer de material para la elaboración de esta tesis. Gracias,

también por haberme dado la suficiente libertad para tomar decisiones y por supuesto gracias por

insistirme para que concluya y redacte la tesis. Gracias, al Dr. José María Sebastián y Zúñiga por

alguna de mis consultas a deshoras.

Una vez hechos los agradecimientos a mis dos directores de tesis, quería dedicar unas palabras

a algunos de los compañeros y amigos de la Universidad Miguel Hernández. Así, quiero agradecer en

especial al Dr. Cesar Peris y a la Dr. María Asunción Vicente, todos y cada uno de los momentos que

hemos compartido en estos años discutiendo sobre discusiones universitarias, de investigación y otras

muchas ajenas a los ámbitos de trabajo.

Y por supuesto, no quiero terminar sin recordar a todos y cada una de las personas con las que

he trabajado en estos últimos años en la Universidad de Alicante. Quiero agradecer en primer lugar al

Dr. Francisco Candelas, su calidad humana y la capacidad que tiene de prestarte su ayuda siempre que

se le necesita aun a costa de aparcar sus quehaceres diarios. Al Dr. Santiago Puente, los momentos de

dedicación que me ha prestado en los últimos meses, ayudándome con algunos de los experimentos en

el laboratorio. También, mis más sinceros agradecimientos, al Dr. Jorge Pomares y Dr. Francisco

Gabriel Ortiz con los que he presentado alguno de los artículos fruto de esta tesis. Finalmente, también

quería dedicar unas líneas a Gabriel García, Juan Antonio Corrales, Carlos Jara, Carolina Díaz y

Gonzalo, su disposición a prestar una mano en cualquier trabajo implementado en el laboratorio de

automática.

Finalmente, mis agradecimientos más emotivos a mis padres, Manolo y Maria Jesús, por estar

ahí siempre que los he necesitado y por su constante apoyo emocional. Y por supuesto, porque gran

Agradecimientos

parte de lo que soy ahora se lo debo a ellos y junto a ellos sigo formándome como ser humano.

Gracias, a María Carmen por apaciguar mis enfados, por compartir estos dos últimos años su tiempo

conmigo y con mi tesis, y por permitirme ser como soy muchas veces con la cabeza en la universidad

en vez de pensando en ella. Y gracias a Alberto, David y Juan por ‘picarme’ y conseguir así renovar

mi ilusión para terminar este trabajo. Gracias a todos.

Resumen

Esta Tesis doctoral está orientada al estudio de estrategias y técnicas para el tratamiento de

oclusiones. Las oclusiones suponen uno de los principales problemas en la percepción de una escena

mediante visión por computador. Las condiciones de luz, los puntos de vista con los que se captura

información de la escena, las posiciones y orientaciones de los objetos presentes en la escena son

algunas de las causas que provocan que los objetos puedan quedar ocluidos parcialmente.

Las investigaciones expuestas en esta Tesis se pueden agrupar en función de su objetivo en

dos grupos: técnicas cuya finalidad es detectar la presencia de oclusiones y estrategias que permiten

mejorar la percepción de un sistema de visión por computador, aun en el caso de la presencia de

oclusiones.

En primer lugar, se han desarrollado una serie de técnicas orientadas a la detección de

oclusiones a partir de procesos de extracción de características y de segmentación color en imágenes.

Estas técnicas permiten definir qué regiones en la imagen son susceptibles de considerarse zonas de

oclusión, debido a una mala percepción de la escena, como consecuencia de observarla con un mal

punto de vista. Como aplicación de estas técnicas se han desarrollado algoritmos basados en la

segmentación color de la imagen y en la detección de discontinuidades mediante luz estructurada.

Estos algoritmos se caracterizan por no incluir conocimiento previo de la escena.

En segundo lugar, se han presentado una serie de estrategias que permiten corregir y/o

modificar el punto de vista de la cámara con la que se observa la escena. De esta manera, las

oclusiones identificadas, mediante los métodos expuestos en la primera parte de la Tesis, y que

generalmente son debidas a una mala localización de la cámara pueden ser eliminadas o atenuadas

cambiando el punto de vista con el que se produce la observación. En esta misma línea se presentan

dos estrategias para mejorar la posición y orientación espacial de la cámara cuando ésta se emplea para

la captura de imágenes en procesos de reconocimiento. La primera de ellas se basa en la

retroproyección de características obtenidas de una imagen real, a partir de una posición cualquiera, en

imágenes virtuales correspondientes a las posibles posiciones que puede adoptar la cámara. Este

algoritmo lleva a cabo la evaluación de un mapa de distancias entre estas características buscando en

todo momento, maximizar estas distancias para garantizar un mejor punto de vista. La ventaja radica

en que en ningún caso se hace necesario mover la cámara para determinar una nueva posición que

mejore la percepción de la escena. La segunda de estas estrategias, busca corregir la posición de la

cámara buscando la ortogonalidad. En este caso, se ha partido de la hipótesis inicial de que la mayor

Resumen

superficie visible siempre se suele conseguir situando la cámara ortogonalmente al plano en el que se

sitúa el objeto.

i

CAPÍTULO 1. INTRODUCCIÓN 1.1. MOTIVACIÓN....................................................................................................................3 1.2. MARCO DE LA TESIS .......................................................................................................4 1.3. APORTACIONES...............................................................................................................6 1.4. PUBLICACIONES FRUTO DE LAS APORTACIONES ..................................................8 1.5. ESTRUCTURA DE LA TESIS .........................................................................................10 CAPÍTULO 2. EL PROBLEMA DE LAS OCLUSIONES 2.1. DEFINICIÓN Y PERCEPCIÓN DEL FACTOR DE OCLUSIÓN ...................................15 2.2. SISTEMAS DE RECONOCIMIENTO DE OBJETOS OCLUIDOS ................................15

2.2.1. Métodos no estadísticos ............................................................................................................. 17 2.2.1.1. Métodos basados en características geométricas ..............................................................................17 2.2.1.2. Métodos basados en parámetros de medida......................................................................................19 2.2.1.3. Métodos combinados........................................................................................................................21

2.2.2. Métodos estadísticos .................................................................................................................. 21 2.2.3. Redes Neuronales ...................................................................................................................... 23

CAPÍTULO 3. LOS PROCESOS DE SEGMENTACIÓN 3.1. EL PROCESO DE SEGMENTACIÓN .............................................................................31

3.1.1. Segmentación de imágenes por histograma y umbralización .................................................... 32 3.1.1.1. Métodos basados en la forma de histograma ....................................................................................34 3.1.1.2. Métodos basados en atributos ...........................................................................................................34 3.1.1.3. Métodos basados en información espacial........................................................................................35 3.1.1.4. Métodos basados en características locales ......................................................................................35 3.1.1.5. Métodos basados en clusters.............................................................................................................36 3.1.1.6. Métodos basados en entropía............................................................................................................40

3.1.2. Segmentación de imágenes basada en regiones ........................................................................ 42 3.1.2.1. Crecimiento de regiones ...................................................................................................................42 3.1.2.2. División y unión de regiones ............................................................................................................44

3.1.3. Segmentación de imágenes por bordes y contornos .................................................................. 45 3.1.3.1. Aproximación por gradiente .............................................................................................................45 3.1.3.2. Aproximación por Laplaciana ..........................................................................................................46

3.1.4. Segmentación por transformada de ‘Watershed’ ..................................................................... 47 3.2. LA LUZ ESTRUCTURADA EN EL PROCESO DE SEGMENTACIÓN........................48

3.2.1. Modelos de reflexión.................................................................................................................. 49 3.2.2. Modelos de formas a partir de sombras .................................................................................... 50 3.2.3. Modelos de formas a partir de enfoques.................................................................................... 50 3.2.4. Modelos fotogramétricos ........................................................................................................... 51 3.2.5. Luz estructurada ........................................................................................................................ 52 3.2.6. Imágenes de rango..................................................................................................................... 55

3.2.6.1. Segmentación basada en regiones.....................................................................................................56 3.2.6.2. Segmentación basada en contornos ..................................................................................................57

3.3. LOS ESPACIOS DE COLOR EN LOS PROCESOS DE SEGMENTACIÓN..................59 3.3.1. El espacio de color RGB............................................................................................................ 61 3.3.2. Los espacios de color HSV y HLS.............................................................................................. 62 3.3.3. Variantes de los espacios HSV y HLS: Los espacios alternativos LSM .................................... 64

3.4. LOS HISTOGRAMAS ......................................................................................................65 3.4.1. Histogramas de color................................................................................................................. 68 3.4.2. Histogramas bidimensionales.................................................................................................... 69

Índice

ii

CAPÍTULO 4. DETECCIÓN DE OCLUSIONES 4.1. PROCESAMIENTO DE LA IMAGEN Y ESTRATEGIAS ADOPTADAS ....................75

4.1.1. Detección de regiones de objetos solapados ............................................................................. 76 4.1.1.1. Segmentación RGB ..........................................................................................................................77 4.1.1.2. Segmentación HSV...........................................................................................................................87 4.1.1.3. Segmentación combinada RGB-HSV...............................................................................................90

4.1.2. Detección de regiones en montajes u objetos ensamblados. ..................................................... 94 4.2. ESTIMACIÓN DE ZONAS DE OCLUSIÓN EN IMAGEN ..........................................100

4.2.1. Detección de oclusiones por segmentación multinivel de espacios de color ........................... 102 4.2.2. Detección de oclusiones por discontinuidades en patrones de luz estructurada..................... 107

4.2.2.1. Detección con Patrones circulares ..................................................................................................108 Aproximación de los contornos de los patrones circulares ..........................................................................108 Agrupamiento de puntos: Clusterización.....................................................................................................112 Cálculo de las direcciones de discontinuidad ..............................................................................................115 Experimentos...............................................................................................................................................116 4.2.2.2. Detección de discontinuidad de superficies en un sistema de control visual con

configuración ‘eye in hand’. ....................................................................................................................118 Cámara en el extremo del robot y control basado en imagen. .....................................................................118 Ley de control y Control visual basado en imagen......................................................................................119 Reconstrucción del movimiento de dos imágenes consecutivas. .................................................................121 Detección de cambio de superficies. ...........................................................................................................123 Experimento. ...............................................................................................................................................125

4.2.3. Comparación de los métodos de detección por segmentación y luz estructurada................... 126

CAPÍTULO 5. ESTIMACIÓN DE MOVIMIENTO PARA EVITAR OCLUSIONES 5.1. MOVIMIENTO DE UN CUERPO RÍGIDO ...................................................................135 5.2. ESPACIO DE BÚSQUEDA............................................................................................136 5.3. PROYECCIÓN EN LA IMAGEN...................................................................................138 5.4. CRITERIOS DE MINIMIZACIÓN.................................................................................140

5.4.1. Distancia entre centroides ....................................................................................................... 140 5.4.2. Distancia entre contornos........................................................................................................ 141 5.4.3. Áreas........................................................................................................................................ 144

5.5. PROCESO DE MINIMIZACIÓN ...................................................................................145 5.6. EXPERIMENTACIÓN. ..................................................................................................147

5.6.1. Imágenes virtuales a partir de datos sintéticos........................................................................ 147 5.6.2. Imágenes virtuales a partir de datos reales I........................................................................... 151 5.6.3. Imágenes virtuales a partir de datos reales II. ........................................................................ 155 5.6.4. Otros ejemplos. ........................................................................................................................ 160

CAPÍTULO 6. ESTIMACIÓN DE MOVIMIENTO PARA MEJORAR EL PUNTO DE VISTA 6.1. PLANTEAMIENTO INICIAL........................................................................................170 6.2. DETECCIÓN DE CARACTERÍSTICAS .......................................................................170 6.3. ANÁLISIS DE CORRESPONDENCIAS .......................................................................171 6.4. RECUPERACIÓN Y CORRECCIÓN DEL MOVIMIENTO.........................................172 6.5. ANÁLISIS DEL ERROR ................................................................................................178

6.5.1. Error de mapeo........................................................................................................................ 179 6.5.2. Error en el cálculo del movimiento.......................................................................................... 183

6.6. EXPERIMENTACIÓN. MEJORANDO EL PUNTO DE VISTA MEDIANTE ORTOGONALIDAD……………. ........................................................................................186

Índice

iii

CAPÍTULO 7. CONCLUSIONES 7.1. INTRODUCCIÓN...........................................................................................................193 7.2. RESULTADOS Y CONCLUSIONES ............................................................................193 7.3. TRABAJOS FUTUROS ..................................................................................................197

ANEXO A. A.1. DETECTORES DE PUNTOS DE INTERÉS .................................................................201

A.1.1. El detector de Harris............................................................................................................... 201 A.1.2. Descriptor SIFT: Características invariantes a escala........................................................... 202

A.2. ESTIMACIÓN ROBUSTA DE TRANSFORMACIONES............................................205 A.2.1. RANSAC para estimar homografías........................................................................................ 206 A.2.2. Estimación Levenberg-Marquardt .......................................................................................... 208

A.3. PROCESO DE FORMACIÓN DE LA IMAGEN...........................................................211 A.3.1. Modelo de cámara................................................................................................................... 211 A.3.2. Extensión del modelo............................................................................................................... 213 A.3.3. Matriz de calibración .............................................................................................................. 215

ANEXO B.

B.1. COSTES COMPUTACIONALES.............................................................................219 B.1.1. Proceso de segmentación color............................................................................................... 220 B.1.2. Proceso de detección de discontinuidades con luz estructurada............................................. 222 B.1.3. Proceso de estimación de posiciones de la cámara para evitar oclusiones............................ 222

BIBLIOGRAFÍA. BIBLIOGRAFÍA....................................................................................................................225

Índice de figuras y tablas

v

ÍNDICE DE FIGURAS

Figura 3-1: Ejemplo del Método de Crecimiento de regiones. ............................................................... 43 Figura 3-2: Ejemplo del método de división de regiones empleando árboles cuaternarios. ................... 45 Figura 3-3: Ejemplo de método de segmentación bordes. ...................................................................... 47 Figura 3-4: Ejemplo de segmentación watershed. .................................................................................. 48 Figura 3-5: Imágenes de una misma escena con diferentes enfoques y mapa de profundidades representado en escala de grises como valores de luminancia. ............................................ 51 Figura 3-6: Fotogrametría aplicada al modelado y reconstrucción de un vehículo. ............................... 52 Figura 3-7: Principio de triangulación para la reconstrucción con luz estructurada. .............................. 53 Figura 3-8: Proceso práctico de reconstrucción tridimensional aplicando triangulación........................ 53 Figura 3-9: Objeto digitalizado y objeto real. ......................................................................................... 54 Figura 3-10: Ejemplo de imagen de rango a partir de medidas de profundidad. ...................................... 55 Figura 3-11: Ejemplo de segmentación a partir de imagen de rango........................................................ 57 Figura 3-12: Tipos de contornos............................................................................................................... 58 Figura 3-13: Segmentación mediante un algoritmo basado en la técnica de contornos............................ 59 Figura 3-14: Respuesta espectral de un sensor CCD basado en RGB. ..................................................... 61 Figura 3-15: Representación del espacio RGB y CMY............................................................................ 62 Figura 3-16: Representación del espacio HSV. ........................................................................................ 63 Figura 3-17: Ajustes de ecualizado de histograma. .................................................................................. 67 Figura 3-18: Histograma de color para cada canal RGB. ......................................................................... 68 Figura 3-19: Histogramas bidimensionales L/S y V/S.............................................................................. 70 Figura 3-20: División del espacio H/S y L/S en 2, 4 y 6 regiones respectivamente. ............................... 71 Figura 4-1: a) Componentes de color RGB. b) Componentes de color suavizadas. ............................... 79 Figura 4-2: Histogramas de las componentes de color RGB segmentadas y detección de umbrales. .... 79 Figura 4-3: Proceso de distribución de gaussianas para el cálculo de umbrales en la componente de color rojo. ........................................................................................................................ 80 Figura 4-4: Evolución de las varianzas entre umbrales para la componente de color rojo. El umbral se

escoge cuando se maximiza la distribución entre clases. a) Primer umbral U=118. b) Segundo umbral U=46. c) Tercer umbral U=178. d) Comparativa de la evolución de la varianza entre regiones-clases. .................................................................................... 81 Figura 4-5: a) Evolución de las medias para cada paso de detección de umbral. b) Evolución de las

varianzas durante la selección de los umbrales. ................................................................... 82 Figura 4-6: a) Distancias de valores de luminancia de píxeles entre regiones-clase. b) Distancias

promediadas de valores de luminancia de píxeles entre regiones-clase clusterizadas. c) Distancias de valores de luminancia de píxeles entre regiones-clase clisterizadas por

componente de color. ........................................................................................................... 83 Figura 4-7: a) Regiones segmentadas con porcentaje de color por cada componente RGB (64 regiones, únicamente 22 regiones validas). b) Regiones clusterizadas por cada componente de color (7 regiones). ....................................................................................... 84 Figura 4-8: a) Componentes de color RGB segmentadas. b) Composición imagen con componentes de color RGB segmentadas. c) Imagen segmentada con agrupamiento de regiones............ 85 Figura 4-9: Segmentación RGB de tres objetos con características opacas............................................ 86 Figura 4-10: Segmentación RGB de tres objetos con características traslucidas...................................... 86 Figura 4-11: Histogramas bidimensionales V/S para el espacio de color HSV y la relación entre sombras y brillos. ................................................................................................................. 87 Figura 4-12: Segmentación HSV de tres objetos con características opacas. ........................................... 89 Figura 4-13: Segmentación HSV de tres objetos con características traslucidas...................................... 89 Figura 4-14: Segmentación combinada RGB-HSV. a) Objetos segmentados. b) Objetos segmentados y clusterizados...................................................................................................................... 93 Figura 4-15: Vista tridimensional de las segmentaciones realizadas........................................................ 93 Figura 4-16: Diagrama de procesos en la segmentación combinada RGB-HSV...................................... 94 Figura 4-17: Histogramas bidimensionales VS para el espacio de color HSV. ........................................ 95 Figura 4-18: a) Experimento 1: Montaje. b) Umbralización. c) Segmentación RGB. d) Clusterización RGB. ....................................................................................................... 96 Figura 4-19: a) Experimento 1: Montaje. b) Umbralización. c) Segmentación HSV. d) Clusterización por matiz. ................................................................................................ 97 Figura 4-20: a) Experimento 1: Montaje eléctrico. b) Segmentación y clusterizado RGB-HSV combinado. c) Experimento 2. d) Segmentación y clisterizado RGB-HSV combinado ..... 98


vi

Figura 4-21: Experimento 1. Vistas tridimensionales de la segmentación realizada ................................ 99 Figura 4-22: Experimento 2. Vistas tridimensionales de la segmentación realizada. ............................... 99 Figura 4-23: Situaciones de difícil detección.......................................................................................... 101 Figura 4-24: Detección de zonas de pre-búsqueda. ................................................................................ 103 Figura 4-25: Evaluación de regiones de pre-búsqueda. .......................................................................... 104 Figura 4-26: Detección de zonas candidatas de solapamiento................................................................ 106 Figura 4-27: Detección de zonas candidatas de solapamiento en un montaje con varios componentes. 106 Figura 4-28: a) Deformación patrón láser al incidir sobre superficie de objetos. b) Preprocesado proyección de los haces........................................................................... 108 Figura 4-29: Ejemplo de Aproximación de Douglas-Peucker. ............................................................... 110 Figura 4-30: Ajuste poligonal de contornos............................................................................................ 111 Figura 4-31: Distribución de los puntos críticos..................................................................................... 111 Figura 4-32: Esquema de proceso de clusterizado. ................................................................................ 114 Figura 4-33: a) Representación 2D de los clusters. b) Representación 3D de los clusters. .................... 115 Figura 4-34: a) Escena real. b) Limitaciones posibles regiones de solapamiento calculadas. ................ 117 Figura 4-35: Ejemplos de oclusiones entre objetos y detección de solapamiento. ................................. 117 Figura 4-36: Control visual basado en imagen, configuración “ver y mover” dinámico. ...................... 119 Figura 4-37: Detalle del sistema de sensorización montado en el extremo del robot. ............................ 119 Figura 4-38: Relación de Homografía entre características de dos imágenes consecutivas. .................. 123 Figura 4-39: Características en la imagen empleadas para el control visual y discontinuidad en la imagen............................................................................................................................ 124 Figura 4-40: Superficies discontinuas. ................................................................................................... 125 Figura 4-41: Zona de discontinuidad detectada mediante luz estructurada. Proceso de seguimiento llevado a cabo a lo largo de la superficie. .......................................................................... 126 Figura 4-42: Escenas reales sobre las que se ha aplicado los procesos de detección.............................. 127 Figura 4-43: Ejemplo de detección empleando luz estructurada. ........................................................... 127 Figura 4-44: Ejemplo de detección empleando luz estructurada con distinta posición del haz. ............. 128 Figura 4-45: Detección de zonas candidatas de solapamiento mediante segmentación. ........................ 129 Figura 4-46: Comparación de la detección con ambos métodos............................................................. 129 Figura 4-47: Ejemplo de detección empleando luz estructurada en el objeto ‘llave’. ............................ 130 Figura 4-48: Detección de zonas candidatas de solapamiento mediante segmentación. ........................ 130 Figura 4-49: Comparación de ambos métodos de detección en el objeto ‘llave’.................................... 131 Figura 5-1: Movimiento de una cámara con respecto a un sistema de referencia fijo. ........................ 135 Figura 5-2: a) Planificación esférica con pasos de 10 grados para latitud y longitud respectivamente. b) Planificación esférica con pasos de latitud de 15 grados y de longitud de 20 grados. ................................................................................................ 137 Figura 5-3: Posición de un punto P(X,Y,Z) en la semiesfera. .............................................................. 138 Figura 5-4: Proyección en el plano imagen. ......................................................................................... 139 Figura 5-5: Calculo de distancia entre objetos sintéticos en imágenes reales. a) Secuencia de imágenes con movimiento de un objeto respecto a los otros. b) Objetos segmentados a partir de color y contorno y distancias computadas a partir de puntos de contorno. ....... 141 Figura 5-6: Comparación de distancias para las imágenes mostradas en la Figuras 5-5. .................... 141 Figura 5-7: a) Modelo CAD del montaje de 3 piezas ensamblados. b) Imagen de cada pieza. ........... 142 Figura 5-8: Comparación de distancias en ohjetos reales. a) Montaje de objetos ensamblados. b) Distancia entre centroides. c) Distancia entre puntos de contorno. d) Distancia considerando sólo puntos de contorno optimizados........................................................... 143 Figura 5-9: Proceso de mapeado en imágenes virtuales de cada uno de un movimiento de la cámara.146 Figura 5-10: Proceso de mapeado en imágenes virtuales de un conjunto de movimientos de la cámara.147 Figura 5-11: Proceso de extracción de características (Extracción de puntos 2D de contornos). ........... 148 Figura 5-12: Proceso de mapeado en imágenes virtuales de distintos movimientos. ............................. 148 Figura 5-13: Proceso de mapeado en imágenes virtuales de un movimiento vertical dónde φ se incrementa cada 10 grados y θ permanece constante......................................................... 149 Figura 5-14: Proceso de mapeado en imágenes virtuales de un movimiento horizontal dónde φ permanece constante a 60º y θ se incrementa cada 30º. ................................................... 149 Figura 5-15: Proceso de mapeado en imágenes virtuales de un movimiento horizontal dónde φ se

incrementa cada 10º y θ se incrementa cada 30º. ............................................................ 150 Figura 5-16: Proceso de extracción de características (Extracción de puntos 2D de contornos). ........... 151 Figura 5-17: Proceso de mapeado en imágenes virtuales de los distintos movimientos que indica la tabla 5-2. ........................................................................................................................ 152


vii

Figura 5-18: Calculo de distancias para secuencia de imágenes virtuales. ............................................. 153 Figura 5-19: Evaluación de las distancias entre objetos para secuencia de imágenes virtuales.............. 154 Figura 5-20: Posiciones virtuales que puede adoptar la cámara. ............................................................ 154 Figura 5-21: Evaluación de las distancias entre objetos para cada posición virtual de la cámara. ......... 155 Figura 5-22: a) Imagen original. b) Segmentación y extracción de centros de gravedad. c) Extracción de contornos a partir de la segmentación. .......................................................................... 156 Figura 5-23: Histogramas bidimensional V/S......................................................................................... 156 Figura 5-24: Filtrado de segmentos de contorno significativos. ............................................................. 157 Figura 5-25: Proceso de mapeado en imágenes virtuales de los distintos movimientos que indica la tabla 5-5. ........................................................................................................................ 158 Figura 5-26: Calculo de distancias para movimiento vertical [1,90]. ..................................................... 159 Figura 5-27: Calculo de distancias para movimiento horizontal [-45,45]............................................... 159 Figura 5-28: a) Imagen original. b) Segmentación y extracción de centros de gravedad. c) Extracción y filtrado de contornos a partir de la segmentación. .................................... 161 Figura 5-29: Cálculo de distancias para secuencia de imágenes virtuales. ............................................. 162 Figura 5-30: Proceso de mapeado en imágenes virtuales del movimiento horizontal indicado en la tabla 5-6. ........................................................................................................................ 162 Figura 5-31: a) Imágenes capturadas desde las posiciones inicial y final de la trayectoria evaluada para

comprobar la validez del método. b) Sistemas de referencia empleados ........................... 163 Figura 5-32: Evolución de distancias para secuencia de imágenes reales (Figura 5-31). ....................... 163 Figura 5-33: Evolución de áreas para secuencia de imágenes reales...................................................... 164 Figura 6-1: Movimiento vertical........................................................................................................... 174 Figura 6-2: Extracción de características mediante detector de esquinas de Harris.............................. 175 Figura 6-3: a) Correspondencia por correlación. b) Filtrado por RANSAC para el cálculo de la

homografía. ....................................................................................................................... 175 Figura 6-4: a) Análisis del error de mapeado para H estimada. b) Movimiento Euclídeo calculado a partir de H. ...................................................................................................... 178 Figura 6-5: Movimiento vertical y horizontal de un objeto. ................................................................. 180 Figura 6-6: Error de mapeado en movimiento vertical. ....................................................................... 180 Figura 6-7: Error de mapeado en movimiento vertical y evolución del error cuadrático medio y del porcentaje de mapeados erróneos. ............................................................................ 181 Figura 6-8: Error de mapeado en movimiento horizontal y evolución del error cuadrático medio y del porcentaje de mapeados erróneos. ............................................................................ 182 Figura 6-9: a) Error cuadrático medio en el cálculo de orientación. b) Ángulos obtenidos en

desplazamiento vertical...................................................................................................... 183 Figura 6-10: a) Error cuadrático medio en el cálculo de orientación. b) Ángulos obtenidos en

desplazamiento horizontal.................................................................................................. 184 Figura 6-11: a) Error de desfase en posición para cada eje en el cálculo del desplazamiento en [mm]. b) Comparación de los desplazamientos obtenidos en el movimiento vertical y los deseados en [mm]. ............................................................................................................. 185 Figura 6-12: a) Error de desfase en posición para cada eje en el cálculo del desplazamiento en [mm]. b) Comparación de los desplazamientos obtenidos en el movimiento horizontal y los deseados en [mm]......................................................................................................... 185 Figura 6-13: Posibles vistas de un objeto ‘frigorífico’.. ......................................................................... 187 Figura 6-14: Reconocimiento de la vista del ‘frigorífico’ mediante descriptores SIFT.......................... 188 Figura 6-15: a) y b) Detección características. c) Correspondencia por correlación. c) RANSAC y

homografía. ........................................................................................................................ 189 Figura 6-16: a) Análisis del error de mapeado para H estimada. b) Movimiento calculado a partir de H.................................................................................................................................... 189 Figura A2-1: Comparación de errores de transferencia y retroproyección.............................................. 208 Figura A3-1: Modelo geométrico de cámara pin-hole............................................................................. 212 Figura A3-2: Transformaciones de coordenadas milímetros a coordenadas píxel. ................................ 214

ÍNDICE DE TABLAS

Tabla 2-1: Clasificación de métodos de reconocimiento de objetos ocluidos existentes en la literatura en función del tipo de clasificación y características empleadas. ......................... 23


viii

Tabla 2-2: Clasificación de métodos de reconocimiento de objetos ocluidos existentes en la literatura en función del tipo de objetos que detecta y el tipo de modelo empleado en la clasificación................................................................................................................. 25 Tabla 4-1: Algoritmo de segmentación correspondiente a las etapas de la figura 4-16. ....................... 92 Tabla 4-2: Criterios de eliminación de ambigüedad en la orientación. ............................................... 113 Tabla 5-1: Distancias entre los objetos de la Figura 5-8, usando centroides y segmentos de contorno. ............................................................................................................................ 144 Tabla 5-2: Ejemplos de movimientos planificados para el cálculo de imágenes virtuales. ................. 151 Tabla 5-3: Selección de umbrales críticos. .......................................................................................... 156 Tabla 5-4: Distancias entre los objetos de la Figura 5-22 usando centroides y segmentos de contorno....................................................................................................... 157 Tabla 5-5: Ejemplos de movimientos planificados para el cálculo de imágenes virtuales. ................. 158 Tabla 5-6: Parámetros del movimiento planificado para el cálculo de imágenes virtuales. ................ 161 Tabla B-1: Coste temporal de la segmentación RGB con 3 umbrales en imágenes 640x480.............. 220 Tabla B-2: Coste temporal de la segmentación RGB con 1 umbral en imágenes 640x480. ................ 220 Tabla B-3: Coste temporal de la segmentación HSV con 3 umbrales en imágenes 640x480. ............. 221 Tabla B-4: Coste temporal de la segmentación HSV con 1 umbral en imágenes 640x480. ................ 221 Tabla B-5: Coste temporal de la segmentación RGB-HSV con umbral en imágenes 640x480........... 222 Tabla B-6: Coste temporal del cálculo de discontinuidades con luz estructurada. ............................. 222 Tabla B-7: Coste temporal del cálculo de distancias entre segmentos de borde. ................................ 223 Tabla B-8: Coste temporal del cálculo de imágenes virtuales para la Figura 5-22. ............................ 223 Tabla B-9: Coste temporal del cálculo de imágenes virtuales para la Figura 5-16. ............................ 224

En este capítulo se comentan las motivaciones que han supuesto la realización de esta tesis doctoral, así como el marco contextual en el que se ha elaborado. Además, el capítulo hace una exposición de las aportaciones en el ámbito de la visión artificial y las publicaciones a las que ha dado fruto. Finalmente, se comentan los capítulos en los que se ha estructurado y qué aborda cada uno de ellos.

1.1. Motivación

Las técnicas de visión artificial cada vez tienen más auge en muchas de las etapas productivas

de la industria, inspección de defectos, reconstrucción y reingeniería, reconocimiento de objetos o

piezas, guiado de robots, seguimiento y vigilancia, etc.

Así, en los últimos años, han ido surgiendo técnicas de visión artificial que se aplican a

sistemas de reconocimiento tanto en ámbitos domésticos, industriales o de servicios. Así destacan las

aplicaciones que tratan de reconocer objetos, caras, caracteres caligráficos o huellas digitales. Técnicas

que en muchos casos han llevado consigo avances en materia de preprocesado y mejora de la imagen,

extracción de características invariantes, segmentación de regiones, identificación de formas y colores

o mecanismos de clasificación. También cabe hacer especial mención, a aquellas técnicas de visión

artificial que buscan automatizar procesos de guiado de robots o vehículos móviles en entornos más o

menos estructurados, y aquellas destinadas al seguimiento de objetos o personas, o aquellas otras que

buscan la recuperación de información tridimensional para procesos de reconstrucción o reingeniería.

En cualquier caso, un sistema de visión sea cual fuera la finalidad para la que se desea requiere

la utilización de una o más cámaras así como un sistema de procesamiento de imágenes a partir del

cual se obtiene la información necesaria para reconocer un objeto, realizar una reconstrucción o el

guiado de un robot, en definitiva, interpretar a alto nivel una escena.

Sin embargo, esta Tesis doctoral no pretende abarcar todos los ámbitos de aplicación de la

visión artificial sino una reducida parte de ellos. En concreto, todas las aportaciones que en esta Tesis

se presentan tienen como finalidad, solventar el problema de las oclusiones de objetos a las que se ven

sometidos los procesos de reconocimiento, principalmente en los ámbitos de manipulado industrial.

Actualmente, y desde la aparición de los primeros sistemas de reconocimiento de objetos

mediante visión por computador, y en especial aquellos que tratan de reconocer objetos con

oclusiones, se busca identificar los objetos tratando de identificar en la imagen capturada, un conjunto

de características modelo previamente almacenadas. El problema en todos los casos, es que el punto

de vista de la cámara con que se ha capturado la imagen delimita el éxito del proceso de

reconocimiento, puesto que en muchas ocasiones la parte visible del objeto a reconocer es reducida.

La visibilidad del objeto viene determinada por la existencia de oclusiones entre objetos, y/o por la

perspectiva con la que se observa el objeto que produce oclusiones propias de la naturaleza y

dimensionalidad del objeto. También, es importante mencionar que otro de los problemas en los que

los sistemas de reconocimiento han hecho especial hincapié es en la búsqueda de características

invariantes que no dependan de la perspectiva que se observe del objeto, del escalado, etc. De hecho,

Capítulo 1. Introducción

- 4 -

algunas de las mejoras en los procesos de reconocimiento se deben a la incorporación de

características invariantes a escalados, orientaciones, iluminación y pequeños cambios de perspectiva.

Dada la naturaleza compleja del problema de las oclusiones, se ha abordado la solución al

problema desde una doble vertiente. Una de ellas que ha tenido como finalidad, plantear diferentes

estrategias de procesamiento de imágenes orientadas a tratar de fijar zonas candidatas dónde es posible

que exista oclusión. Y por otro lado, se ha abordado el problema desde un punto de ‘prevención’ de la

oclusión. Es decir, a partir de una vista concreta determinar qué posición o conjunto de posiciones de

la cámara podrían ser adecuadas para reducir la existencia de oclusiones en las imágenes que se

pudieran capturar a partir de dichas perspectivas. De este modo, una corrección en la posición de la

cámara para reducir una oclusión mejoraría la etapa de reconocimiento del objeto. Esto es

especialmente interesante, en entornos en el que interactúan varios objetos o piezas en las que está

presente un solapamiento visual o un solapamiento por contacto de superficies, como es el caso de

manipulado en procesos de desensamblado.

En esta Tesis se plantean, por lo tanto, una serie de técnicas orientadas a la detección de

oclusiones en la imagen a partir de la extracción de características y de información de color. Estas

técnicas permiten definir qué regiones en la imagen son susceptibles de considerarse zonas de

solapamiento entre objetos bien por contacto visual o por contacto de superficies. De esta manera,

conocidas las zonas de solapamiento, se pueden tratar de implementar o desarrollar algoritmos que

permitan reducir, o evitar éstas.

Además, con esta Tesis Doctoral, se ha querido plantear una metodología destinada a corregir

o cambiar el punto de vista de la cámara para reducir el impacto y la presencia de oclusiones en la

imagen.

1.2. Marco de la Tesis

Esta Tesis se plantea dentro de dos proyectos de investigación: “Desensamblado automático

selectivo para reciclado mediante robots cooperativos y sistema multisensorial” financiado por el

Ministerio de Ciencia y Tecnología (DPI2002-02103) y “Diseño, Implementación y Experimentación

de Escenarios de Manipulación Inteligentes para Aplicaciones de Ensamblado y Desensamblado

Automático” financiado por el Ministerio de Educación y Ciencia (DPI2005-06222). El principal

objetivo de estos proyectos es el de desarrollar una célula de desensamblado automático compuesta de

dos brazos robots industriales trabajando de forma cooperativa, así como investigar sobre la aplicación

de sistemas multisensoriales y manipulado inteligente.


- 5 -

El desensamblado automático requiere un alto grado de flexibilidad y adaptabilidad a los

distintos cambios que puedan surgir durante el propio proceso, bien debido a la incertidumbre

existente con respecto al producto a desensamblar, al estado de conservación del mismo, o al gran

número de fabricantes existentes y su gama de productos, etc. Todo ello confiere un grado de

dificultad superior, siendo necesarios sistemas multisensoriales que empleen técnicas de visión

artificial en los procesos de reconocimiento y localización de componentes y productos [Torres-

2004][Gil-2007b].

La visión artificial en este último proyecto tiene como objetivo intentar dar solución a algunos

de los problemas: sombras, brillos, oclusiones, solapamientos, etc., que pueden ser críticos en un

proceso de reconocimiento. Estos problemas perjudican notablemente a la hora de determinar el tipo o

clase de objeto del que se trata. Cuando se capturan imágenes de un entorno, en el que interaccionan

tanto distintos objetos como diversos elementos de manipulado, las condiciones de luz [Torres-

2004][Ortiz-2004a], puntos de vista, posiciones y orientaciones de los distintos objetos varían con el

tiempo y se hace costoso identificarlos. Así, malas condiciones de luz pueden producir zonas de

oscuridad no deseadas, que impiden la extracción de características. Una mala iluminación puede

producir zonas de sombras. A su vez estas zonas de sombra pueden hacer que se limite o dificulte la

extracción de características como color, textura y contornos. Por otro lado, la presencia de brillos

también altera el proceso de reconocimiento. En la primera parte de esta Tesis se abordan métodos

para la detección de regiones mediante segmentación color e histogramas bidimensionales, atenuando

la información de brillos y sombras para reducir su influencia. Además, en esta primera parte,

también se plantea una estrategia para identificar zonas de oclusión o solapamiento entre objetos.

Además, por otro lado, la interacción de objetos y manipulado de estos puede producir

problemas de oclusión o de solapamiento. Así, un objeto situado detrás de otro, en el mismo plano que

el eje óptico de la cámara que lo observa, impide a veces que se pueda reconocer. En este tipo de

sistemas se puede intentar reconocer el objeto a partir de la parte visible. Sin embargo, uno de los

objetivos que se busca resolver en la segunda parte de esta Tesis, es tratar de estudiar estrategias cuya

finalidad sea mejorar la percepción visual de los objetos presentes en la escena calculando un punto de

vista de la cámara que reduzca las regiones de oclusión de los objetos. Estas estrategias podrían

adoptar una mayor flexibilidad en el reconocimiento de objetos que están siendo sometidos a

manipulación. Por lo tanto, dentro del proyecto en el que se encuadra la Tesis, la sensorización del

entorno se hace indispensable en la puesta en práctica de procesos de desensamblado. De ahí que las

estrategias de visión artificial aportadas en esta Tesis constituyen un eslabón importante dentro de este

sistema de sensorización.


- 6 -

1.3. Aportaciones

Las principales aportaciones de la Tesis se pueden clasificar en dos tipos:

• Aportaciones en materia de procesado de la imagen.

• Aportaciones para determinar el movimiento de una cámara en procesos de

reconocimiento.

Ambas aportaciones tienen como finalidad conseguir detectar y reducir algunas de las

oclusiones que se producen en procesos de adquisición de imágenes, cuando varios objetos interactúan

en una escena. Situaciones muy comunes en sistemas de manipulado con robots. Por lo tanto ambos

tipos de aportaciones, confluyen en una tercera aportación que consiste en la presentación de una

aproximación para la detección y reducción de oclusiones por solapamiento en el punto de vista de una

cámara.

Así, una de las principales aportaciones de esta Tesis ha sido el desarrollo de una nueva

técnica de segmentación, basada en metodologías híbridas que combina varios espacios de color. Esta

técnica de segmentación ha sido propuesta principalmente para solventar los problemas que subyacen

en las segmentaciones de imágenes en las que se emplea un único espacio de color. De este modo, los

problemas típicos debidos a la influencia de brillos en espacios RGB se solventan con información de

histogramas bidimensionales obtenidos a partir de su correspondiente espacio HSV o HLS. Por un

lado, este tipo de segmentación multi-espacio mejora la segmentación en el caso de valores de

luminancia que definen la formación de sombras y brillos, sin perder definición de color en la imagen

segmentada como ocurre en ocasiones en los espacios basados en matiz, saturación y luminancia.

Además, cabe destacar que el proceso de segmentación presentado es una estrategia multiumbral

basada en una segmentación clásica de imágenes en escala de grises como es el método de Otsu. Por

lo tanto, otra aportación ha sido plantear una estrategia de más de un umbral por componente de color,

limitando el número de éstos a los parámetros extraídos del histograma bidimensional V/S, parámetros

que permiten delimitar las ausencias de color debido a la formación de brillos o sombras. Del mismo

modo, ha sido necesario plantear una técnica de agrupamiento o clusterizado para reconstruir la

imagen segmentada, que realice un agrupamiento por similitud de colores. Así, la técnica de

segmentación presentada realiza una reconstrucción de los colores de la imagen buscando la similitud

de colores mediante un proceso de cálculo de distancias entre regiones segmentadas. Este proceso se

aplica para cada componente de color, buscando cuanto diverge el valor de intensidad de cada uno de

los píxeles de las regiones segmentadas con respecto a la media de intensidad de cada región

detectada, por lo tanto también el proceso de reconstrucción se basa en minimizar la suma ponderada

de las varianzas entre regiones segmentadas. Además, otros aspectos importantes a destacar son la


- 7 -

automatización del método y la posibilidad de ajustar el nivel de segmentación deseado en caso que se

desee, además de una velocidad de procesamiento ajustable.

Esta técnica de segmentación se ha empleado como base para otra de las aportaciones. De

modo, que a partir de la información extraída de la imagen segmentada, y conjuntamente con un

proceso sencillo de detección de bordes, se ha presentado una aproximación que permite detectar

zonas candidatas de oclusión en una escena a partir de la información de una imagen en color. Así, se

presenta un método que partiendo de una imagen previamente segmentada y reetiquetada gracias a un

proceso de clusterizado, determina las regiones candidatas donde puede darse una oclusión en la

imagen. Estas regiones han sido calculadas a partir de los cambios representativos en las

características de color, buscando gradientes máximos, aproximando estos por segmentos que marcan

la dirección de la posible oclusión y delimitando estas regiones mediante un análisis de entornos de

vecindad de estos segmentos. Este método tiene la ventaja de que permite definir previamente zonas

candidatas de oclusión sin la necesidad de información a priori sobre modelos, o conocimiento de los

objetos representados en la imagen.

Sin embargo, el método implementado requiere de información color y está fuertemente

influenciado por la técnica de segmentación presentada. Por lo tanto, esto ha llevado al estudio de

algún otro mecanismo que pueda solucionar algunos de los problemas que pueda suponer una posible

falta de homogeneidad en el proceso de segmentación propuesto. Esto implica, presentar otra nueva

aportación que basa la detección de oclusiones por solapamiento en un proceso de detección de

discontinuidades mediante luz estructurada láser. La ventaja de este método es que no requiere de

información color para detectar discontinuidades, sin embargo el empleo de éste método junto con las

técnicas presentadas como aportación anteriormente, permiten añadir una etapa de comprobación que

realice un chequeo que delimite qué zonas candidatas de oclusión lo son realmente y cuales no.

Además, al algoritmo mencionado se ha empleado con éxito para la detección de discontinuidades

conjuntamente con un sistema de control visual-fuerza basado en imagen. De modo, que este sistema

de detección de discontinuidades limita las zonas en las cuales es posible que se produzca una

discontinuidad, evitando los errores que en algunos casos proporcionan los sensores de fuerza debido a

irregularidades en las superficies chequeadas. Todo esto ha sido comentado en detalle en el Capítulo 4.

La última parte de esta Tesis se centra en el estudio de estrategias que permitan corregir y/o

modificar el punto de vista de la cámara. En muchas ocasiones, las oclusiones que se producen en un

entorno donde se manipulan objetos mediante robots, son debidas a una mala localización de la

cámara o cámaras. Así, una mala localización proporciona un punto de vista inadecuado que en

ocasiones hace que un objeto no sea visible porque es ocluido por otro, o simplemente que el área o

superficie del objeto tenga limitada visibilidad. Dentro de este ámbito se presentan dos estrategias para


- 8 -

mejorar la posición y orientación espacial de la cámara que se emplea para la captura de imágenes en

procesos de reconocimiento.

La primera de las aportaciones en este ámbito, consiste en presentar un método que permita

determinar una solución subóptima de posicionamiento espacial de una cámara sin necesidad de

realizar ningún tipo de movimiento y únicamente a partir de la información visible obtenida a partir de

una primera posición arbitraria de ésta (Capítulo 5). Para implementar este método se ha delimitado un

espacio de prebúsqueda de posibles posiciones que la cámara puede adoptar para intentar conseguir un

mejor punto de vista. Este espacio de prebúsqueda se ha delimitado a los puntos de superficie de una

semi-esfera, de modo que el tiempo de cómputo en la búsqueda de posicionamiento se puede controlar

aumentando o reduciendo los puntos que definen el espacio de prebúsqueda. Además, este método de

posicionamiento tiene la ventaja de que no parte de un conocimiento previo del objeto u objetos

representados en la imagen. Por lo tanto, no se dispone de información a priori de la escena, que en

cualquier caso mejoraría el comportamiento del método y que será objeto de estudio en trabajos

futuros. El método se basa en la retroproyección de características obtenidas de una imagen real, a

partir de una posición cualquiera, en imágenes virtuales correspondientes a las posibles posiciones que

puede adoptar la cámara. Y posteriormente, en la evaluación de un mapa de distancias entre estas

características buscando en todo momento, maximizar estas distancias para garantizar un mejor punto

de vista. El mapa de distancias entre características en la imagen representa una medida de cercanía

entre objetos. Para extraer las características en la imagen se han empleado los métodos anteriormente

presentados como aportaciones.

Finalmente, se ha evaluado la posibilidad de corregir un movimiento de una cámara a partir de

la adquisición de dos imágenes (Capítulo 6). Una de ellas que se adquiere en modo ‘off-line’ y que se

emplea como la imagen que adquiriría la cámara en la posición deseada. Y otra imagen que es la

adquirida por la cámara en una posición arbitraria. La finalidad de este análisis permite tratar de

buscar en trabajos futuros, un método que permita corregir la posición de la cámara buscando la

ortogonalidad, de modo que se pueda aplicar sistemas de reconocimiento de objetos, maximizando en

la medida de lo posible el grado de porcentaje de acierto en el proceso de reconocimiento.

1.4. Publicaciones fruto de las aportaciones

Fruto de los estudios realizados en el marco de esta Tesis doctoral, cabe destacar las siguientes

publicaciones en la que se han abordado y comentado algunas de las aportaciones que en ella se

presentan.


- 9 -

• “Improving detection of surface discontinuities in visual-force control systems”. J. Pomares,

P. Gil, G.J. García, J.M. Sebastián, F. Torres. Ed. Elsevier. Image and Vision Computing.

(Aceptado y pendiente de publicación en 2008).

• “Estimation of Camera 3D-position to Minimize Occlusions”. P. Gil, F. Torres, O. Reinoso. 4th

Internacional Conference on Informatics in Control, Automation and Robotics (ICINCO’07).

Vol.2, pp. 311-317. ISBN: 978-972-8865-83-2. Angers (Francia). 2007.

• “Visual-Force Control and Structured Light Fusion to Improve Recognition of Discontinuities in

Surfaces”. J. Pomares, P. Gil, G.J. García, F. Torres. 11th. IEEE International Conference on

Emerging Technologies and Factory Automation (ETFA’06). Pp. 1044-1050. ISBN:1-4244-0681-

1. Praga (República Checa). 2006.

• “A detection method of intersection for determining overlapping using active vision”. P. Gil, F.

Torres, O. Reinoso. International Conference on Computer Vision Theory and Applications

(VISAPP’06). Vol. 1, pp. 501-507. ISBN: 972-8865-40-6. Setubal (Portugal). 2006.

• “Detection of partial occlusions of assembled components to simplify the disassembly tasks”.

P. Gil, F. Torres, F.G. Ortiz, O. Reinoso. Ed. Springer-Verlag. Internacional Journal of Advance

Manufacturing Technology. Vol. 30. Num. 5. pp. 530-539. ISSN: 1433-3015. 2005

• “Una aproximación a la percepción de zonas de solapamiento con oclusion mediante luz

estructurada”. P. Gil, F. Torres. XXVI. Jornadas de Automática. Alicante-Elche (España). 2005.

• “Detección de Objetos por Segmentación Multinivel Combinada de Espacios de Color”. P. Gil, F.

Torres, F.G. Ortiz. XXVI Jornadas de Automática. Ciudad Real (España). 2004.

Además resaltar otras publicaciones en las que se ha participado, y que han sustentado las

bases para las investigaciones que en esta Tesis se presentan. Entre ellas cabe mencionar:

• “Flexible Multi-sensorial system for Automatic Disassembly using Cooperative Robots”. P. Gil,

J. Pomares, S.T. Puente, C. Diaz, F. Candelas, F. Torres. Ed. Taylor-Francis. International

Journal of Computer Integrated Manufacturing. Vol. 20. Num 8. pp. 757-772. 2007.

• “A comparative study of highlights detection and elimination by color morphology and polar

color models”. F.G. Ortiz, F. Torres, P. Gil. Ed. Springer-Verlag. Lecture Notes in Computer

Science. Vol. 3523. pp. 295-302. 2005.

• “Automatic PC disassembly for component recovery”. F. Torres, P. Gil, S.T. Puente, J. Pomares,

R. Aracil. Ed. Springer-Verlag. International Journal of Advanced Manufacturing. Vol. 23. Num.

1. pp. 39-46. 2004.


- 10 -

1.5. Estructura de la Tesis

El contenido de esta Tesis doctoral se estructura del siguiente modo:

Inicialmente, en este primer capítulo se han expuestos las motivaciones que han llevado a

centrar la temática de estudio y que han servido como base para establecer las pautas de estudio que

aborda esta Tesis. Además, en este primer capítulo se ha comentado el contexto de realización de la

Tesis y brevemente se han presentado las técnicas y aportaciones fruto de los trabajos de investigación

realizados en este ámbito.

En el capítulo 2 se define el concepto de oclusión y se hace una breve clasificación de tipos de

oclusión en función de su naturaleza. Además, se hace un repaso general a algunos de los sistemas de

reconocimiento de objetos presentes en la literatura de visión artificial, tanto aquellos que tienen cierta

caracterización estadística como aquellos que únicamente se basan en características métricas o

medidas de similitud. En este capítulo además se han elaborado unas tablas clasificatorias, que

permiten comparar los sistemas de reconocimiento existentes en función de múltiples parámetros que

los caracterizan, entre los que cabe mencionar el tipo de características que emplean, los métodos de

clasificación, el tipo de objetos capaz de reconocer, el tipo de imágenes empleadas o el tipo de

invarianza capaz de emplear. Esta caracterización permite mostrar las ventajas y desventajas que

ofrece cada uno a la hora de realizar una implementación práctica de cada uno de los sistemas

presentados.

Posteriormente, en el capitulo 3, se introducen diversos aspectos destinados al estudio de las

distintas técnicas de procesamiento, prestando una especial atención a aquellas que han sido

consideradas parcialmente para servir como base a los desarrollos e implementaciones llevadas a cabo

en el capitulo 4. Así, se define el concepto de segmentación y se describen distintas técnicas de

segmentación. A continuación, en este mismo capitulo se explican los espacios de color más

habituales y las ventajas y desventajas que estos ofrecen. Y para concluirlo, se comentan herramientas

como los histogramas bidimensionales y las ventajas que estos aportan en los procesos de

segmentación de imágenes color.

Los capítulos 4, 5, 6 y 7 constituyen la parte central de esta Tesis, y describen las aportaciones

realizadas en éste ámbito. En todo momento, se ha procurado describir en detalle los procesamientos,

técnicas y metodologías empleadas en los algoritmos propuestos. Además, se ha tratado de mostrar

ejemplos prácticos que mediante gráficos e imágenes procesadas permitan comprobar el

funcionamiento de éstos, de la mejor manera posible.

Así, más en detalle, en el capítulo 4 se describe un método de detección de zonas de oclusión

en imagen. Este método permite identificar aquellos entornos (‘patchs’) o pequeñas regiones en la


- 11 -

imagen que se consideran zonas candidatas dónde un objeto ocluye parte de otro. Para la

implementación de éste método, se ha desarrollado un nuevo método de segmentación color basado en

la combinación de dos espacios de color y de información procedente de histogramas bidimensionales.

En este capítulo, se han descrito cada uno de los algoritmos de los que consta el método presentado,

así como distintos resultados experimentales que permiten corroborar el comportamiento, ante la

variación de los distintos parámetros que modifican y rigen su correcto funcionamiento.

El capítulo 5 muestra un método que permite mejorar el punto de vista de la cámara para

eliminar o evitar oclusiones por solapamiento, partiendo de la información proporcionada por una

única imagen, es decir de una vista monocular. En este capitulo se realiza una planificación de

posibles posiciones y orientaciones que puede adoptar una cámara para reducir las zonas de oclusión

entre objetos. Esto se lleva a cabo, tomando como criterio básico la maximización del mapa de

distancias entre características extraídas, así como realizando un estudio de la retropropagación en

imágenes virtuales de dichas características, características obtenidas a partir de una imagen real

obtenida en una posición arbitraria de la cámara. En este capítulo se han presentado diversos

resultados experimentales que ilustran el método y otros que muestran el comportamiento del método

en presencia de oclusiones. Para la realización de los experimentos la cámara se ha montado sobre un

robot, para llevar a cabo los movimientos y comprobar la validez del método.

En el capítulo 6, se ha estudiado una metodología alternativa a la presentada en el capítulo 5,

en este caso se pretende corregir el punto de vista a partir de dos imágenes. Este método se presenta

como una forma de mejorar el punto de vista de la cámara cuando la oclusión no es debida a

solapamiento sino únicamente a una perspectiva inadecuada que reduce el área visible del objeto,

debido a la geometría de éste. El método se basa en la búsqueda de una posición de ortogonalidad de

la cámara como mejor posición para la adquisición de imágenes. De este modo se garantiza que la

adquisición de la imagen siempre se realizará en las mejores condiciones para ser empleada en

procesos de reconocimiento. Al igual que en el capítulo 5, este capítulo finaliza con distintos

resultados que evalúan el comportamiento del algoritmo en entornos reales.

Finalmente, en el capítulo 7 se resumen las principales conclusiones que se han derivado de la

realización de la Tesis, describiendo las aportaciones realizadas y los posibles trabajos futuros

relacionados con las investigaciones desarrolladas. Y para concluir, la Tesis concluye con la lista

detallada de las referencias bibliográficas consultadas.

En este capítulo se definen conceptualmente los tipos de oclusiones. Además, se revisa y expone el estado actual de los sistemas de reconocimiento de objetos existentes en la literatura desde un punto del problema de las oclusiones. Para ello se hace una clasificación en función de las características empleadas en el proceso de reconocimiento y del tipo de objetos que es capaz de detectar.

2.1. Definición y percepción del factor de oclusión

A la hora de reconocer un objeto en una imagen nos encontramos con varios problemas que

evitan que podamos determinar de qué modelo-objeto se trata. Cuando se capturan imágenes de una

escena real del mundo, en la que interaccionan distintos objetos y además cuyas condiciones de luz,

puntos de vista, posiciones y orientación de los objetos varían con el tiempo se hace muy costoso

identificar los objetos presentes en la imagen. El principal problema que impide esta identificación de

los objetos presentes en la imagen viene determinado por la presencia de lo que se conocen como

oclusiones, datos espurios y ruido.

Hay distintas maneras de clasificar el tipo de oclusión producida. Así, en primer lugar, una

posible clasificación que se propone para las oclusiones podría realizarse en función del tipo de causa

o factor que la provoca.

En función de la causa que la produce, se pueden distinguir los siguientes tipos:

• Oclusiones en las que un objeto tapa una porción del área de otro objeto que se quiere

reconocer y que no es del todo visible (solapamiento u ‘overlapping’ en la literatura

anglosajona).

• Oclusiones por opacidad, en la que un objeto por su propia geometría oculta parte de si

mismo.

• Oclusiones por sombras, en las que el tipo de iluminación produce sombras en la imagen en

el propio objeto a reconocer o en el resto de objetos con los que interacciona y que también

están presentes en la imagen. Así, un objeto puede ser ocluido parcialmente por su propia

sombra o por la sombra de otro objeto en función del tipo de iluminación existente en la

escena.

2.2. Sistemas de reconocimiento de objetos ocluidos

El proceso de reconocimiento de uno o varios objetos, ya se encuentren ocluidos en una

escena o no, depende de dos etapas básicas de procesamiento: Una primera etapa conocida que agrupa

los métodos de extracción de características en la imagen y una segunda etapa conocida como proceso

de ‘matching’ o correspondencias entre un modelo del objeto (modelo-objeto) y el conjunto de

características extraídas (extraídas en la etapa previa) del objeto situado en la escena. Si además, se

tiene en cuenta que el objeto que se quiere reconocer ha sido registrado en una imagen de la escena, el

Capítulo 2. El problema de las oclusiones

- 16 -

reconocimiento se basa en obtener una correspondencia entre el modelo-objeto y la información del

objeto en la imagen. En definitiva, el objetivo de todo proceso de reconocimiento es clasificar los

objetos presentes en la escena de acuerdo a la similitud de sus características con las características de

un modelo-objeto.

De ahí que, por un lado se requiera determinar: ¿Cómo se va a construir el modelo del objeto

(modelo-objeto)? y ¿Cómo se va a representar la información en la imagen para ser comparada con el

modelo-objeto? La construcción del modelo-objeto para cada uno de los objetos a reconocer y la

representación de la información en la imagen, en la cual se encuentra parte de los datos que

representan los objetos presentes en la imagen, son dos de los condicionantes en cualquier proceso de

reconocimiento de objetos.

Generalmente, en la literatura existen sistemas de reconocimiento de objetos de distinta índole,

desde objetos presentes en imágenes SAR (acrónimo de la denominación anglosajona ‘Synthetic

Aperture Radar’) que hacen uso de invariantes [Jones-1999][Boshra-2000a][Bhanu-2000][Bhanu-

2003], pasando por sistemas que se destinan al reconocimiento de formas definidas por un simple

contorno (tipo patrón) [Lo-2001][Zhang-2003][Bicego2004][Orrite-2004], reconocimiento de

imágenes de objetos [Edwards-1997][Krumm-1996][Ohba-1997][Masudur-2004a], reconocimiento de

objetos 3D planos [Rajpal-1999][Chan-2002][El-Sonbaty-2003] o reconocimiento de objetos

poliédricos [Yi-1998][Park-2003][Boshra-2000b].

Los métodos de cálculo de las correspondencias entre unas características geométricas

extraídas de una imagen y la información almacenada de los modelos-objeto que se quieren reconocer

dentro de la imagen, se encuentran con varios problemas.

a) Inicialmente se desconoce cual es la correcta correspondencia entre cada uno de los modelos-

objeto y las características extraídas de la imagen.

b) Generalmente, los objetos no se encuentran aislados en una escena. De modo que la

representación de uno de estos objetos, en la imagen, se ve alterada por la presencia de otros

objetos. Una consecuencia es la aparición de características espurias que se extraen en la

imagen y que pueden no pertenecer al objeto que se busca reconocer sino al fondo o a

cualquiera de los otros objetos en la imagen.

c) Incertidumbre en la geometría que forman las características extraídas, debido a ruido en el

proceso de adquisición de las cámaras o a la inexactitud como consecuencia de la inestabilidad

de la clase de detectores usados para la extracción de estas características.


- 17 -

d) Imposibilidad de extraer todas y cada una de las características de un objeto, en una imagen

que equivaldrían a la información, y datos del modelo-objeto que representa. Principalmente,

esto es debido a la existencia de oclusiones o como en el caso anterior a la inexactitud en los

tipos de detectores usados.

Por supuesto, es deseable que el reconocimiento de objetos parcialmente ocluidos se realice

siempre a partir de las partes no ocluidas, sin tener que construir modelos-objeto para los objetos

ocluidos.

En función del tipo de la información que se extrae de la imagen de la escena, dónde se

encuentran los objetos que se quiere reconocer; los métodos comentados se pueden clasificar de un

modo muy genérico, como basados en área o basados en características. Y por otro lado, existen varios

sistemas de clasificación para hacer el ‘matching’ del reconocimiento, algunos estadísticos y otros no,

que se presentan brevemente a continuación.

2.2.1. Métodos no estadísticos

Los métodos no-estadísticos clasifican objetos presentes en una imagen reconociéndolos como

pertenecientes a una determinada clase de objeto, definido como modelo-objeto, en función de alguna

propiedad geométrica o algún parámetro de medida.

El principal inconveniente de este tipo de métodos radica, en que la eficacia de los algoritmos

basados en estos métodos decrece rápidamente cuando se incrementa la incertidumbre de medida en

las características extraídas del objeto representado en la imagen, ya sea por la inestabilidad de los

métodos empleados en la extracción de características, por la existencia de ruido, o con la extracción

de características espurias que se entremezclan con las características del objeto. Este hecho hace

imposible discernir qué características extraídas son realmente características del objeto que se busca

detectar y cuales son características que habiéndose extraído erróneamente pertenecen al fondo o a

otro de los objetos presentes en la imagen.

Entre ellos cabe destacar, en función del tipo de parámetro de medida o propiedad utilizada

para discernir un objeto de entre un conjunto de modelos-objeto disponibles, los siguientes:

2.2.1.1. Métodos basados en características geométricas

a.) Métodos conocidos como ‘pose space methods’ en la literatura anglosajona..

Son métodos que se basan en encontrar transformaciones geométricas que hagan corresponder

características del modelo-objeto y características del objeto representado en una imagen de una


- 18 -

escena. Así, se busca encontrar de entre el espacio de búsqueda de todas las transformaciones posibles,

cual es la transformación que hace corresponder el máximo número de características del modelo-

objeto y del objeto representado en la imagen.

Métodos basados en Geometric Hashing (G.H.): Estos algoritmos son muy utilizados en el

reconocimiento de patrones [Lamdan-1989][Lamdan-1998][Gavrila-1992].Los métodos tradicionales

de G.H. se basan en un esquema de votación donde cada invariante medido, a partir de un conjunto de

características extraídas en la imagen, proporciona un voto que determina el nivel de aproximación a

un conjunto de características del modelo-objeto. El principal problema radica que los invariantes

medidos a partir de características espurias (pertenecientes al fondo por ejemplo) provocan falsos

votos que producen a veces falsos resultados de detección.

Métodos basados en ‘pose clustering’ (P.C): Este método generalmente se emplea para

detección y localización más que para reconocer objetos [Ohba-1997]. Son métodos que se utilizan

para encontrar la posición de un objeto en la imagen. Se fundamentan en encontrar las

transformaciones de un subconjunto de características del modelo-objeto que se correspondan con un

subconjunto de características de la escena, extraídas en la imagen que la representa. Y a continuación,

cada una de las correspondencias obtenidas se extrapola al espacio de posiciones para determinar la

existencia del modelo-objeto en la escena. El principal inconveniente es el elevado tiempo de

búsqueda en el espacio de posiciones, que es de tipo exponencial. Y además, el éxito de la detección

depende del ruido posicional en la escena.

b) Métodos conocidos como ‘indexing schemes’ o basados en la búsqueda en el espacio de

invariantes.

Son métodos que se basan en hacer las correspondencias de características del modelo-objeto

y del objeto representado en la imagen, que tienen la propiedad de ser invariantes a las

transformaciones que pueda sufrir el objeto. De modo que al final se reduce a hacer la correspondencia

de invariantes del modelo-objeto y de invariantes del objeto que se busca reconocer y que está

presente en la escena [Flynn-1993][Jones-1999]. En estos métodos, el índice es un vector patrón de

medidas invariantes obtenidas de la imagen. Muchas veces estos métodos se usan conjuntamente con

los ‘geometric-hashing’.

Dentro de estos métodos también cabe destacar aquellos que en lugar de utilizar ‘indexing

schemes’ basados en tablas (‘geometric hashing based indexing’), usan otros sistemas de clasificación

como las redes neuronales [Rajpal-1999]. El principal problema de los sistemas de clasificación

basados en esquemas de ‘hashing’ es el manejo de vectores de características multidimensionales de

más de 2 o 3 dimensiones.


- 19 -

2.2.1.2. Métodos basados en parámetros de medida

a) Métodos conocidos como ‘eigenspace analysis’ en la literatura anglosajona o métodos

basados en apariencia.

Son métodos que aprenden modelos-objeto a partir de una serie de imágenes tomadas en el

mismo entorno en el que se quiere realizar el proceso de reconocimiento. Estos métodos almacenan el

modelo-objeto como un vector de ‘eigenspace’ de pocas dimensiones y realiza el proceso de

reconocimiento comparando el vector del modelo-objeto y los vectores obtenidos a partir de la imagen

de la que se busca reconocer objetos. Inicialmente, estos métodos sólo pretendían el reconocimiento de

objetos múltiples sobre fondos complicados pero sin manejar oclusiones [Murase-1995].

Posteriormente, han ido apareciendo en la literatura, nuevas aproximaciones que buscan ampliar estas

técnicas al análisis de procesos de reconocimiento de objetos parcialmente ocluidos. Este es el caso de

los métodos conocidos como ‘eigenwindows’ [Ohba-1997][Masudur-2004b] u otros estudios que

permiten determinar la posición de un objeto parcialmente ocluido haciendo uso de ‘eigenfeatures’

[Krumm96]. El principal inconveniente radica en que las representaciones de una imagen usando

métodos clásicos de análisis ‘eigenspace’ son muy sensibles a los condicionamientos de la imagen,

como son las propiedades del fondo, el ruido existente, oclusiones en los objetos, escalados en la

imagen, cambios en la imagen y cambios de iluminación. Para reducir estos efectos surge el método de

‘eigenwindows’ [Ohba-1997][Masudur-2004a], que consiste en reducir el espacio de la imagen en

pequeños espacios de ventana y determina distintos criterios para elegir el número más eficiente de

ventanas. En los últimos años, han aparecido estudios que emplean multiples canales de información

procedentes de modelos de representación del color con este tipo de técnicas basadas en análisis de

componentes principales ‘PCA’ [Vicente-2006]. La principal ventaja de estos métodos es que son

rápidos una vez que han sido entrenados y permiten alcanzar reconocimientos en tiempo real.

b) Métodos basados en medidas de similitud.

Estos métodos, a su vez, se pueden clasificar en función del tipo de características que se

quieren comparar mediante una medida de similitud. Estas características son muy diversas y abarcan

desde características conocidas de bajo-nivel, como pueden ser los valores de luminancia o nivel de

gris de píxeles hasta las características de alto-nivel como áreas y regiones.

Estas técnicas utilizan como medida de similitud para comparar las características extraídas de

la imagen que representa el objeto u objetos y el modelo-objeto, que en este tipo de métodos suele ser

siempre una imagen del objeto que se quiere detectar, medidas de correlación [Edwards-1997]; es

decir, principalmente, se comparan imágenes [Huttenlocher-1993]. Generalmente, este tipo de técnicas

asentaron las bases y fundamentos de los sistemas de clasificación y reconocimiento de objetos. Y la

mayor parte datan de finales de los 70 y principios de los 80, cuando no existía un importante


- 20 -

desarrollo aun de la visión por computador, sin embargo actualmente siguen apareciendo mejoras y

nuevas aproximaciones. Entre ellos cabe destacar, los que usan la distancia de Haussdorff como

medida [Huttenlocher-1993] [Rucklidge-1996], y sus mejoras manejando información estadística para

la detección de oclusiones [Rucklidge-1997][Yi-1997][Olson-1997-1998][Lai-1999]. También se han

aplicado otro tipo de distancias distintas a la de Haussdorf, como son la Euclídea [Lo-2001] o

Procrustean [Zhang-2003]. Y otros métodos basados en ‘matching’ de histogramas [Hetzel-2001].

Por otro lado, existen además otras medidas de similitud para el reconocimiento de objetos de

un modo robusto frente a oclusiones, cambios de iluminación y complejidad por desorden en la

imagen. Por ejemplo, Steger [Steger-2001], presenta una técnica que realiza la clasificación basándose

en la forma. Consiste fundamentalmente en extraer puntos y vectores directores de esos puntos, tanto

para el modelo (que es una imagen del objeto) y para la imagen en la que se quiere encontrar dicho

modelo. Y posteriormente, comparar estos puntos mediante una suma de productos escalares de

vectores de modelo-objeto y objeto en la imagen normalizados. Otras técnicas usan como

características extraídas, puntos de contorno [Lo-2001][Zhang-2003], vectores probabilísticas [Park-

2003], o conceptos como el de bitangentes [Orrite-2004]

A comienzos de la década han ido apareciendo nuevos descriptores de límite de contornos que

son invariantes a rotaciones, traslaciones y escalados; además de ser independientes del punto de

comienzo que define el descriptor. Un claro ejemplo, es el descriptor que se obtiene de aplicar la

transformada de wavelet a los contornos de los objetos a reconocer [Tsang-2001].

Varios de los métodos de reconocimiento de objetos usando modelos 2D, basados en medidas

de similitud, son evaluados por Ulrich [Ulrich-2001-2002], en su aplicación a la industria.

No obstante también hay quien usa técnicas de grafo para representar el modelo del objeto, y

los objetos representados en la imagen. Y utiliza distintos parámetros de medida para determinar la

similitud entre ambos grafos. [Boshra-2000b][El-Sonbaty-2003].

Más recientemente, se han publicado distintas técnicas para el reconocimiento de objetos 3D

basadas en medidas de similitud obtenidas a partir de datos procedentes de imágenes de rango.

Principalmente, en estos casos, se trata de características volumétricas y/o superficiales. Así, Adán

[Adán-2004] utiliza una característica de superficie invariante denominada Cono Curvatura (CC) que

permite a partir de una malla esférica [Herbert-1995] que envuelve la superficie del objeto, escaneado

con un sensor de rango, determinar el punto de vista de un objeto tridimensional facilitando su

detección en la imagen. Posteriormente, Salamanca [Salamanca-2007] a partir de la representación

(CC) ha obtenido una nueva representación conocida como Cono Curvatura Ponderada (WCC) que

permite reconocer objetos a partir de imágenes de rango obtenidos desde un único punto de vista.


- 21 -

2.2.1.3. Métodos combinados

En los últimos años han proliferado los métodos basados en una combinación de

características geométricas, en concreto basados en técnicas de apariencia, y parámetros de medida. El

objetivo de estos métodos subyace en tratar de corregir los fallos de reconocimiento que se producen

en las técnicas basadas en apariencia cuando se presentan oclusiones o diferentes condiciones de

luminancia en el fondo. El más popular de estos métodos es el uso de descriptores SIFT [Loewe-

1999][Loewe-2004] (ver Anexo A.1) invariantes a cambios de escala, rotaciones, ruido, cambios de

iluminación y robusto a una gran cantidad de distorsiones debidas a transformaciones afines. Aunque

años atrás, ya aparecieron los primeros métodos que combinaban características geométricas y de

apariencia sobre conjuntos de objetos, aplicando datos de entrenamiento para el reconocimiento de

estos objetos. Estas técnicas llamadas de ‘boosting’ en la literatura anglosajona, inicialmente fueron

diseñadas para el reconocimiento de una sola clase de objetos [Viola-2001]. El principal problema

que tienen los sistemas de reconocimiento que emplean este método es la gran cantidad de

características que se necesitan para el entrenamiento y posterior reconocimiento de cada modelo-

objeto, de ahí que en sus inicios se limitasen al reconocimiento de un único modelo-objeto. Más

adelante otro investigador [Torralba-2004] propuso una extensión conocida como ‘jointboost’ que a

partir de un entrenamiento conjunto para todos los modelos-objeto consigue un reconocimiento de

múltiples clases de objetos. A pesar de ello, la principal diferencia entre estas técnicas de ‘boosting’ y

el método de descriptores SIFT es que este último incorpora orientación local en cada punto empleado

como característica local, permitiendo invarianza a escala y orientación. Mientras que las técnicas de

‘boosting’ se basan principalmente en las correspondencias de patrones, careciendo así de cierta

invarianza a orientación.

Actualmente, otros investigadores como [Villamizar-2006] han incorporado la idea de

invarianza a rotación y ‘boosting’ para el reconocimiento de multiples modelos-objeto. Estas

investigaciones buscan seleccionar características comunes y específicas que permitan construir una

estructura modelo-objeto que permita reconocer múltiples objetos independientemente de su posición,

escala y orientación, empleando un reducido conjunto de características.

2.2.2. Métodos estadísticos

Los métodos estadísticos clasifican objetos presentes en una imagen reconociéndolos como

pertenecientes a una determinada clase de objeto, definido como modelo-objeto, en función de la

probabilidad de que tal objeto detectado en la imagen sea identificado como uno u otro modelo-objeto.

De modo que el modelo-objeto candidato ideal será aquel que maximice dicha probabilidad.


- 22 -

Al introducir información probabilística, se puede tener en cuenta para el reconocimiento de la

incertidumbre en las características extraídas del objeto en la imagen. Es decir, puede darse el caso que

algunas de las características extraídas del objeto y que van a ser utilizadas para realizar la

correspondencia con las características del modelo-objeto, y así determinar la clasificación del objeto

representado en la imagen, no son las adecuadas. Esto puede ser debido a que no son las adecuadas

porque no pertenecen al objeto sino al fondo o a otro objeto cercano, son lo que se consideran

características espurias. De modo, que es interesante incorporar distribuciones espaciales a las

características que se extraen de la imagen para mejorar el proceso de clasificación.

Los métodos probabilísticas al utilizar probabilidades de pertenencia determinan con mayor

exactitud las correspondencias con el modelo y de este modo clasifican mejor los objetos cuando para

su clasificación se usan características espurias. Es difícil clasificar estos métodos de ‘matching’

principalmente por la diversidad y porque muchas veces se combinan. De modo que se puede

introducir probabilidades para definir la incertidumbre tanto en el modelado de las características

como en el proceso de ‘matching’.

A continuación se presentan algunos presentes en la bibliografía.

• Método probabilístico usando distancia de Haussforff [Olson-1998][Sim-1999].

• Método MMM (MAP Model Matching) [Wells-1997].

• Métodos probabilísticos que no proporcionan un modelo explícito de dependencias

entre características.[Olson-1998][Subrahmonia-1996].

• Métodos probalísticos basados en campos aleatorios de Markov MRF. [Boykov-

1998][Ying-1999][Ying-2002][Chan-2002]

• Métodos probabilísticas basados en modelos ocultos de Markov HMM (Hidden Markov

Modeling). [Bhanu-2000][Bhanu-2003][Bicego-2004]

• Métodos probabilísticos haciendo uso de ‘geometric hashing and/or pose clustering’.

[Tsai-1993][Tsai-1994] [Sehgal-2003].

• Métodos Bayesianos para el reconocimiento de múltiples objetos ocluidos que pueden

aparecer deformados [Mardia-1997]: Introduce un método Bayesiano para el

reconocimiento para detectar objetos independientemente de la posición y de la

deformación en los objetos

Al enmarcar el problema de correspondencia en un marco Bayesiano se solventan algunos de

los inconvenientes típicos que aparecían en los métodos de ‘geometric hashing’ y ‘pose clustering’

tradicionales. Entre todos ellos cabe destacar que:

- El método se hace más robusto ante la presencia de ruido.


- 23 -

- Los invariantes medidos a partir de diferentes conjuntos de características del mismo

modelo-objeto afectan menos a la hora de medir la posición.

- Se evita el efecto de falsos votos al usar invariantes medidos a partir de características

espurias, evitándose falsas detecciones.

2.2.3. Redes Neuronales

Otro de los sistemas de clasificación más usados en el reconocimiento de objetos, y por lo

tanto también, se ha extrapolado al reconocimiento de objetos parcialmente ocluidos es el uso de redes

neuronales [Lee-1995][Rajpal-1999][Yañez-1999]. Las redes neuronales permiten que se pueda

entrenar el sistema con instancias de los modelos-objeto bajo diferentes condiciones de iluminación,

además de incorporar información en el entrenamiento de gran variedad de cambios. Esto hace que el

sistema sea más robusto al ruido y a las variaciones. Además, la red neuronal por otro lado, permite

identificar los casos en que el reconocimiento puede ser confuso, haciendo uso de un modo apropiado

de las funciones de activación de las neuronas.

Una vez se han comentado brevemente, algunos de los métodos de reconocimiento de objetos

de los que más se ha investigado en los últimos años, en las tablas 2-1 y 2-2 se presenta una

clasificación por autores de los trabajos de reconocimiento más significativos realizados haciendo

especial énfasis en el tipo de características extraídas en la imagen y en el tipo de objeto a reconocer.

Es imprescindible, hacer notar que en algunos casos se ha hecho imposible identificar y

determinar el método de clasificación, las características empleadas, o algunas de las propiedades que

en las tablas se detallan, debido a falta de detalle en la información del artículo o trabajo publicado por

el autor. En tales situaciones, las casillas de las tablas 2-1 y 2-2 han sido completadas con un guión.

Tabla 2-1: Clasificación de métodos de reconocimiento de objetos ocluidos existentes en la literatura en función del tipo de clasificación y características empleadas.

Características

Método clasificación Tipo Distribución en

características [Lai-1999] Píxeles-correlación Estadístico - SI

[Lee-1998] Puntos de contornos y Regiones

Red neuronal - -

[Sim-1999] Puntos de contorno Distancia Haussdorff - -

[Wells-1997] Líneas de segmento Estadístico - -

[Tsang-2001] Contornos y Transformada wavelet

Similitud (Vector de características)

- -

[Chan-2002] Puntos de contorno Estadístico (Modelos de Markov).

Locales SI


- 24 -

(Continuación) Características

Método clasificación Tipo Distribución en características

[Rajpal-1999] Puntos de contorno con invarianza afín

Red Neuronal con ‘indexing scheme’

Locales NO

[Edwards-1997] Máscaras-Templates Correlación Templates-Escena

Globales NO

[Krumm-1996] Templates Eigenspace (Eigenfeatures)

Globales NO

[Ohba-1997] Templates Eigenspace (Eigenwindows)

Globales NO

[Steger-2001] Puntos de contorno y vectores directores

Comparación de medida de similitud

Locales NO

[Boykov-1998] [Boykov-1999]

- Estadístico (Modelos MRM de Markov)

- -

[Rucklidge-1997] Puntos de contorno Distancia de Haussforf - -

[Olson-1997]

- Distancia de Haussdorf modificada para medir

ángulos

- -

[Olson-1998]

- Estadístico (Formulación

probabilística para distancia de Haussdorf)

- SI

[Yi-1997] - Distancia de Haussdorff - -

[Bhanu-2000] [Bhanu-2003]

Máximos locales de intensidad- centros de

dispersión

Estadístico ( Modelos HMM ocultos de

Markov)

Locales SI

[Jones-1999] Centros de dispersión Indexing schemes y geometric hashing

Locales -

[Sehgal-2003] Corners (Esquinas) Estadístico (‘Geometric shing’ y ‘pose clustering con enfoque Bayesiano’

Locales SI

[Gavrila-1992] - Geometric hashing - -

[Flynn-1993] Porciones de superficies

Indexing tables - -

[Yi-1998] Porciones de superficies

- - -

[Mardia-1997] Templates a partir de vértices

Probabilidades y paradigmas Bayesianos.

Locales SI

[Ying-1999] [Ying-2002]

Puntos de contorno Estadístico (Modelos de campos aleatorios de

Markov MRF)

Locales SI

[Hetzel-2001] Histograma, curvatura y luminancia

Histograma Matching Locales NO

[Masudur-2004a] Templates (formas) Eigenspace (mean eigenwindows)

Globales NO

[Yañez-1999] Poligonos a partir de ejes por Hough

Red Neuronal MST-SOM

Locales NO

[Boshra-2000a]

Puntos Estadístico - -


- 25 -

(Continuación) Características

Método clasificación Tipo Distribución en características

[Ulrich-2001] [Ulrich-2002]

- Distancia Haussdorf, correlación cruzada,

transformada de Hough modificada, etc.

- -

[To-1999] Contornos (puntos y segmentos)

Estimador ortogonal. Locales NO

[Boshra-2000b] Superficies y bordes Matching de grafos Locales NO

[El-Sonbaty-2003]

Puntos de contorno y aproximaciones de

líneas

Matching entre grafos que representan

polígonos

Locales NO

[Bicego-2004] Contornos (coeficientes de

cuvartura y puntos de contorno)

Estadístico (HMM: Modelos Ocultos de

Markov)

- -

[Lo-2001] Contornos, puntos extremos de su forma

convexa

Similitud (Distancia Euclídea)

Locales NO

[Zhang-2003] Espacio de forma (puntos de contorno, distancia geodesica,

etc).

Similitud (Distancia Procrustean)

Locales NO

[Park-2003] Vector probabilítico. Matching entre grafos - SI

[Orrite-2004] Bitangentes a partir de puntos de contorno.

Distancia de Haussdorf Locales NO

[Loewe-2004] Puntos, Descriptores SIFT

Similitud (Distancia Euclidea)

Locales NO

[Torralba-2004] Templates (secciones de imagen)

‘Boosting’ Locales SI

Tabla 2-2: Clasificación de métodos de reconocimiento de objetos ocluidos existentes en la literatura en función del tipo de objetos que detecta y el tipo de modelo empleado en la clasificación.

Modelo Objeto Detección

Transform. (Rot y Tras)

Detección Escalado

Conocim. previo

Objetos reales

Instancias múltiples

[Lai-1999] - 2D SI SI - SI NO

[Lee-1995] 2D 2D - - - - -

[Wells-1997] - 3D - - - - -

[Chan-2002] 2D 2D SI SI NO SI SI

[Tsang-2001] 2D 2D SI - SI NO NO


- 26 -

(Continuación) Modelo Objeto Detección Transform. (Rot y Tras)

Detección Escalado

Conocim. previo

Objetos reales


[Rajpal-1999] 2D 2D SI NO - SI SI

[Edwards-1997] 2D 2D SI SI SI SI SI

[Krumm-1996] 2D 2D SI NO SI SI NO

[Obha-1997] 2D 2D SI SI SI SI SI

[Steger-2001] 2D 2D SI NO SI SI SI

[Yi-1997] 3D 3D SI SI NO SI NO

[Bhanu-2000] [Bhanu-2003]

- 2D SI NO SI SI (SAR) NO

[Jones-1999] - 2D SI NO SI SI (SAR) NO

[Sehgal-2003] 3D 2D-3D SI NO SI SI NO (No

oclusiones)

[Lamdan-1998] - 3D - - - - -

[Gavrila-1992] - 3D - - - - -

[Flynn-1993] - 3D - - - - -

[Yi-1998] - 3D - - - - -

[Mardia-1997] 2D 2D SI SI NO SI SI

[Ying-1999] [Ying-2002]

2D 2D SI - NO SI SI

[Hetzel-2001] 3D 3D SI SI SI NO NO

[Masudur-2004a]

2D 2D SI NO NO SI NO

[Yañez-1999] 2D 2D SI SI NO SI SI

[Boshra-2000] 2D 2D - - - NO -

[Ulrico-2001] [Ulrico-2002]

2D 2D - - - - -

[To-1999] - - SI SI - - -

[Boshra-2000b] 3D 3D - - SI NO SI

[El-Sonbaty-2003]

2D 2D SI SI SI SI SI

[Bicego-2004] 2D 2D SI SI SI NO NO


- 27 -

(Continuación) Modelo Objeto Detección Transform. (Rot y Tras)

Detección Escalado

Conocim. previo

Objetos reales


[Lo-2001] 2D 2D NO NO SI NO NO

[Zhang-2003] 2D 2D SI SI SI NO NO

[Park-2003] 3D 3D SI SI SI SI SI

[Orrite-2004] 2D 2D SI SI SI NO SI

[Loewe-2004] 2D 3D SI SI SI SI SI

[Torralba-2004] 2D 3D SI SI SI SI SI

Explicación:

• Características: Información valida procesada y extraída de la escena, y que será la base del reconocimiento.

• Método de clasificación: Hace referencia al método de ‘matching’ usado para buscar

correspondencias entre el objeto que se quiere reconocer, representado por un estructura que definirá un modelo-objeto, y la estructura construida a partir de las características extraídas de la escena que representarán 1 o varios objetos en la imagen.

• Tipo de Características: Pueden ser locales o globales dependiendo de si son propias del

objeto en la imagen o hacen referencia a zonas, regiones o a la imagen en general independientemente de si pertenecen o no al objeto.

• Distribución de características: Indica si existe alguna función que define o trata de definir

como se distribuyen las características extraídas en la escena. Normalmente suelen ser funciones estadísticas.

• Modelo: Indica si el modelo que se utiliza para cada objeto tiene propiedades que registran

información 2D o además incorporan información 3D. • Objeto: Hace referencia al tipo de objetos que se reconocen, se entiende que si se parte de

imágenes todos los objetos sean 2D o 3D vendrán representados por 2D. Por otro lado, a veces los objetos siendo 3D en realidad, se consideran 2D porque son lo suficientemente planos. Depende mucho del autor como cataloga los objetos.

• Detección de Transformaciones (Rotaciones y Traslaciones): Determina si es capaz de

reconocer instancias de los objetos con rotaciones y traslaciones respecto al objeto original tomado como modelo.

• Detección de escalado: Determina si detecta ante instancias del objeto con diferentes tamaños

respecto al modelo original.

• Conocimiento previo: Hace referencia si es necesario conocer a priori cuales son los objetos que se quiere reconocer. Es decir, si se necesita de una base de datos de los objetos almacenados.


- 28 -

• Objetos reales: Indica si se han hecho pruebas con objetos reales o sólo sintéticos o generados por ordenador.

• Instancias múltiples: Indica si un mismo objeto puede aparecer más de una vez en la imagen

o bien, si aparece más de un objeto distinto en la imagen (es decir no se trata de objetos aislados).

En este capítulo se introducen las distintas técnicas de segmentación de imágenes digitales, las cuales fundamentan la base de los trabajos e implementaciones que se expondrán en el capítulo siguiente. Además de presentarse un pequeño estado del arte de éstas, también se exponen los espacios de color más habituales y se muestran las ventajas que aportan al proceso de segmentación color, herramientas como los histogramas bidimensionales.

3.1. El proceso de segmentación

La segmentación es uno de los campos de investigación más populares en los procesos de

detección tanto destinados a aplicaciones de reconocimiento de patrones, procesos de reconocimiento

o detección de objetos tridimensionales. La segmentación es un proceso que consiste en dividir la

imagen en varios conjuntos disjuntos, cada uno de los cuales tiene ciertas propiedades.

Los criterios empleados en el proceso de división dependen fuertemente de la naturaleza de los

datos que se emplean como entrada y de la naturaleza de la escena en la que se quiere detectar o

reconocer un objeto o parte de éste. Así, la naturaleza de la escena puede presentar objetos con formas

regulares que no tienen definida claramente la geometría, objetos vistos desde distintos puntos de vista

y en distintas direcciones, y objetos parcialmente ocluidos por otros objetos o por ellos mismos.

Muchas aproximaciones aplicadas a la segmentación de imágenes se han ido desarrollando en

los últimos años, algunas de ellas destinadas a la segmentación de imágenes en escala de grises, otras

destinadas a la segmentación de imágenes en color y otras tantas cuyo objetivo es la segmentación de

imágenes de rango.

El problema de la segmentación se puede definir de la siguiente manera [Hoover-1996]:

Si I es una imagen completa, la segmentación consiste en dividir I en subregiones: nIII ,...,, 21

tal que:

• Uni i II1= =

• iI es una región conectada para ni ,...,2,1= • ∅=∩ ji II para todo i y j, si ji ≠ • VERDADEROIP i =)( para ni ,...,2,1= • FALSOIIP ji =∪ )( para ni ,...,2,1=

donde )( iIP es un predicado lógico o un conjunto de propiedades similares sobre los puntos de

iI , y ∅ es el conjunto vacío o nulo.

Así, la primera condición indica que la unión de todas las regiones obtenidas después de la

segmentación debe formar la imagen completa. La segunda condición requiere que los puntos de una

región estén conectados entre sí por medio de alguna característica que define la propia segmentación.

La tercera condición indica que las regiones deben constituir por si solas conjuntos disjuntos unas de

otras. La cuarta condición indica que los puntos de una misma región deben satisfacer una o varias

propiedades, es decir deben tener cierta homogeneidad o compartir alguna característica. Y finalmente,

Capítulo 3. Estado del arte en los procesos de segmentación

- 32 -

la última condición determina que dos regiones son distintas porque los puntos de cada una de ellas

satisfacen propiedades distintas.

De modo, que se ha considerado adecuado clasificar las técnicas de segmentación de acuerdo

a dos categorías: segmentación de imágenes convencionales, ya sean estas en escala de grises o en

color, y segmentación de imágenes de rango. Y profundizando algo más, se detallarán dentro de las

técnicas de segmentación de imágenes convencionales los cuatro procedimientos más empleados. De

acuerdo a la extensa bibliografía existente cabría destacar las técnicas basadas en métodos de

umbralización o ‘clustering’ (Apartado 3.1.1), los métodos basados en regiones de crecimiento,

división y unión (Apartado 3.1.2), los métodos basados en contornos y bordes (Apartado 3.1.3), y

finalmente los métodos basados en transformada de Watershed (Apartado 3.1.4).

Del mismo modo, se adopta una clasificación similar para la segmentación de imágenes de

rango y se comenta la importancia de algunas de las metodologías y principios empleados para la

elaboración de este tipo de imágenes. Se hace especial mención a las imágenes de rango obtenidas por

luz estructurada ya que algunos de los experimentos realizados en esta tesis se emplean este tipo de

técnicas.

Todas las técnicas de segmentación de imágenes convencionales comentadas en este capítulo

pueden aplicarse directamente tanto a imágenes en escala de grises como a imágenes en color.

Simplemente, es necesario presentar la imagen en color como un conjunto de imágenes componentes

del tipo escala de grises, y después emplear técnicas de agrupación, clasificación, que permitan de

nuevo la formación de la imagen en color segmentada.

También es importante tener en cuenta a la hora de segmentar imágenes en color que en

espacios de color como el HSI-HSV, componentes de color como la saturación y el tono o matiz

dependen a menudo de las propiedades reflectantes de los objetos en la escena. Siendo la componente

de intensidad la que más depende de la iluminación y ángulo de observación.

3.1.1. Segmentación de imágenes por histograma y umbralización

Los principales mecanismos de segmentación en imágenes de escenas donde los objetos o

elementos que aparecen en la imagen no tienen una forma claramente definida, son los métodos

basados en técnicas de umbralización. Las técnicas de umbralización nacen como la necesidad de

intentar identificar y extraer un objetivo a partir del fondo en el que se sitúa en base a la distribución

de niveles de gris o textura existentes en la imagen. Muchas de estas técnicas están basadas en

información estadística como son los histogramas unidimensionales de valores de luminancia.

Generalmente, este tipo de técnicas son útiles cuando los objetos tienen una superficie o textura


- 33 -

homogénea y el fondo es más o menos uniforme. Sin embargo, algunos de estos métodos han sido

mejorados adaptándose a pequeños cambios en la luz que reciben la superficie de los objetos,

adoptando ciertas características de adaptatividad.

El problema de estas técnicas radica en encontrar los valores de gris a tomar como umbrales

entre objetos. Esto es debido al ruido en el proceso de captación de la imagen y a las condiciones de

luz, variables dependiendo del instante de tiempo y/o el punto de vista. Normalmente estos valores de

gris que separan unos objetos de otros, no son un valor fijo sino que tienen un valor de intervalo, que

en muchas ocasiones hace que ciertos píxeles puedan pertenecer a un objeto u otro indistintamente. A

continuación se exponen algunas de las técnicas más empleadas en estos años, cada una de ellas se

emplea en función de los casos que se quieren analizar y de la aplicación que se le vaya a dar. De este

modo, se emplean técnicas de segmentación de este tipo como base previa en tareas de procesamiento

de documentos [Sezgin-2004], en sistemas de ‘tracking’ y seguimiento [Rosin-2003], sistemas de

segmentación de imágenes en general [Sahasrabudhe-1992] (de ultrasonidos, térmicas, endoscópicas y

rayos x, etc.) o en secuencias de video [Wezka-1978][Pal-1994][Zhang-1996][Kurugollu-2001].

Así, el método de Otsu [Otsu-1979] está basado en el análisis discriminante y usa momentos

acumulativos del histograma para calcular el valor del umbral o umbrales. El método de Kapur

[Kapur-1985] emplea el concepto de entropía de una imagen, al igual que hace el método de Pun [Pun-

1981]. Kapur considera la umbralización de una imagen como dos clases de eventos cada una de ellas

caracterizada por una función de probabilidad. El método maximiza la suma de las entropías de las dos

funciones de probabilidad hasta que converjan a un único valor de umbral. Más adelante, Parker

[Parker-1996] realiza una nueva aproximación de la entropía del histograma de intensidades

introduciendo información de lógica difusa y extendiendo los trabajos de Huang y Wang [Huang-

1995].

Según Sezgin [Sezgin-2004], los métodos de umbralización se pueden categorizar de acuerdo

a la información que emplean y el modo en como la tratan y procesan, como pueden ser: la forma del

histograma, la entropía de éste, los atributos de la imagen, la información espacial, las características

locales y el espacio de medida, así como las técnicas de clusterizado.

• Métodos basados en la forma del histograma: Son aquellos que analizan la forma del

histograma. Es decir, los picos, valles y curvaturas que tenga.

• Métodos basados en atributos de la imagen: Entre estos métodos están todos aquellos que

buscan una medida de similitud entre los niveles de gris, por ejemplo una coincidencia de

bordes, similitud de formas, etc.

• Métodos basados en información espacial: Aquellos que emplean distribuciones de

probabilidad de un alto orden y/o correlación entre píxeles.


- 34 -

• Métodos basados en características locales: Son aquellos conocidos con el sobrenombre

de umbralizaciones adaptativas, puesto que adaptan el valor de los umbrales en cada

píxel en función de las características locales de la imagen.

• Métodos basados en técnicas de clusterizado: Son aquellos que modelan el histograma

como una superposición de funciones Gaussianas.

• Métodos basados en entropía: Todos aquellos métodos que emplean el concepto de

entropía para separar objetos de fondo.

3.1.1.1. Métodos basados en la forma de histograma

De entre los métodos basados en la forma del histograma, cabe destacar el método de

Rosenfeld en los años 80 [Wezka-1978][Rosenfeld-1983], que se fundamenta en el análisis de la

concavidad del histograma y en el concepto de ‘colina convexa o convex hull’. Variaciones de este

método fueron propuestas en los años 80 por Halada [Halada-1987], y ya en los 90 por Saharabuhe y

Whatmouh [Sahasrabudhe-1992]. El método de Sezan de 1990 [Sezan-1990], también evalúa la forma

del histograma pero mediante un análisis de los picos y los valles del histograma. Para ello, opta por

realizar operaciones de convolución entre la función del histograma y máscaras de suavizado.

Variaciones de los trabajos de Sezan han sido propuestos por Olivo en 1994 [Olivo-1994] y Tsai en

1995 [Tsai-1995].

3.1.1.2. Métodos basados en atributos

Los métodos basados en atributos de la imagen se basan en atributos de calidad y en medidas

de similitud entre la imagen original y la versión umbralizada de la imagen. Este tipo de técnicas son

más empleadas para la restauración de documentos y sistemas no-destructivos de segmentación como

pueden ser las segmentaciones de imágenes por ultrasonidos, rayos-x o endoscópicas. En este tipo de

técnicas de umbralización, los atributos empleados para la selección de umbrales pueden estar

relacionados con el grado de similitud o calidad en un proceso de ‘matching’ de bordes entre imagen

original y binarizada, momentos, conectividad, textura, compactación de las formas o estabilidad de

los objetos segmentados.

Así Cheng y Tsai [Cheng-1993][Tsai-1985] emplean los momentos para determinar la mejor

umbralización posible entre la imagen original y la imagen umbralizada. Hertz y Schafer [Hertz-1988]

emplean una técnica de multi-umbralización, dónde se extraen bordes de la imagen original en escala

de grises y se comparan con una imagen binarizada. El umbral adecuado es calculado como aquel que

maximiza las coincidencias entre ambos bordes. Esta técnica emplea el operador de Sobel para extraer

los bordes. Huang y Wang [Huang-1995] proponen un factor ‘fuzzy’ o borrosidad, para medir la

similitud entre la imagen y la imagen binarizada, donde para separar cada elemento en la imagen se

emplean funciones de mediana y media. Estos trabajos han servido como base para que Ramar


- 35 -

[Ramar-2000] introduzca nuevos factores de borrosidad empleando medidas de entropía logarítmica y

exponencial.

3.1.1.3. Métodos basados en información espacial

Esta clase de algoritmos de umbralización no sólo utilizan información procedente de la

distribución de los niveles de gris, sino que además dependen de la distribución espacial de los píxeles,

es decir de los entornos de vecindad de estos. De ahí que se empleen funciones de correlación,

modelos de dependencia lineal y/o co-ocurrencias. Uno de los primeros trabajos de umbralización que

emplearon información espacial fueron los de Kirby y Rosenfeld [Kirby-1979], en los que se empleó

una media local de niveles de gris en ciertos entornos de vecindad, para la umbralización. Más

adelante han destacado los trabajos de Chanda [Chanda-1988], Lie [Lie-1993] y Chang [Chang-1994]

en el empleo de matrices de co-ocurrencias (GLCM). La matriz de co-ocurrencias de niveles de gris es

un histograma de niveles de gris de dos dimensiones para un par de píxeles (píxel de referencia y

vecino). Esta matriz aproxima la probabilidad de la distribución conjunta de un par de píxeles y se

emplea, generalmente, para medir matemáticamente las texturas.

Otro autor, como Abutaleb [Abutaleb-1989] emplea el concepto de entropía de histogramas

bidimensionales cuyos parámetros son los valores de luminancia de cada píxel y las medias de estos

píxeles en un entorno de vecindad concreto; y Beghdadi [Beghdadi-1995] introduce un nuevo

concepto de entropía llamado entropía de bloques, donde los bloques son pequeños entornos de

vecindad de la imagen de tamaños entre 2x2 y 16x16 píxeles. Finalmente, trabajos más recientes en

este campo son los llevados a cabo por Cheng [Cheng-1999a][Cheng-1999b] que combina las ideas de

entropía difusa e histograma bidimensional de niveles de gris y la medias locales de entornos de

vecindad 3x3.

3.1.1.4. Métodos basados en características locales

En esta clase de algoritmos de umbralización, el umbral es calculado para cada píxel que a su

vez depende de información estadística, como el rango de valores de luminancia o la varianza de su

entorno de vecindad. Los algoritmos más destacados dentro de esta categoría son los que se basan en

varianza local. Dentro de estos, cabe destacar el método de Niblack [Niblack-1986] y Sauvola

[Sauvola-2000] que adapta el umbral de acuerdo a la media local y a la desviación estándar de cada

píxel en la imagen, calculándolas en una ventana de vecindad de un tamaño previamente definido.

Aunque también merecen ser nombrados los algoritmos de umbralización basados en el ajuste de

superficies donde destacan los trabajos de Chan [Chan-1991] y Shen [Shen-1997]. En este tipo de

algoritmos se combina la información de bordes y valores de luminancia para construir el umbral. La

base de los algoritmos es obtener la imagen de magnitud de gradiente y a partir de ésta, el gradiente


- 36 -

máximo local. Y por último, los trabajos de Oh [Oh-1999] que emplean una modificación del método

de entropía de Kapur pero empleando dos umbrales.

3.1.1.5. Métodos basados en clusters

A continuación se analizan con algo más de extensión, los métodos basados en técnicas de

clusterizado y entropía que son los que más adelante servirán como base fundamental para la

segmentación color propuesta. Los métodos basados en técnicas de clusterizado se pueden clasificar

en cuatro tipos distintos.

• Métodos de división en clusters: Método de Otsu.

• Métodos iterativos: Método de Ridler.

• Métodos de mínimo error: Método de Kittler.

• Métodos de división en clusters con lógica difusa: Método de Jawahar.

Método de Otsu.

El método de Otsu [Otsu-1979] emplea un criterio basado en los conceptos estadísticos de

distribuciones Gaussianas. El método pretende modelar cada región o conjunto de píxeles de valores

de luminancia similares como funciones Gaussianas. De este modo, si se tiene una imagen de una

escena dónde aparece un objeto sobre un fondo, y se quiere segmentar el objeto del fondo, Otsu viene

a decir que los píxeles que constituyen el objeto se pueden agrupar formando una distribución

Gaussiana, y los del fondo formando otra distinta. De ahí que el método de Otsu busca encontrar ese

valor de luminancia de inflexión que es capaz de separar una Gaussiana de la otra. El criterio

empleado para ello se basa en la maximización de la varianza de los conjuntos disjuntos que se van

formando para distintos valores de intensidad empleados como separador o umbral.

Teniendo en cuenta que una imagen es una función bidimensional de niveles de gris, y que

contiene n·m=N píxeles con niveles de gris de 0 a 255, siendo )(IH el histograma que se puede

entender como una función de probabilidad tal:

∑=∑⋅

===

255

0

255

0)(

kk

k

k pmn

nIH (3.1)

El método de Otsu consiste en dividir una imagen en dos conjuntos disjuntos de píxeles, con

niveles de gris de { } { }255,...,1,,..,0 10 += uCuC , donde la media de las Gaussianas de los dos conjuntos

disjuntos se puede poner como:

01

0 /ωμ ∑ ⋅==

u

iipi , 1

255

11 /ωμ ∑ ⋅=

+=uiipi (3.2)


- 37 -

Para la imagen completa, la media se puede poner como:

1100

10255

11

00 1 , ,

μωμωμ

ωωωω

⋅+⋅=

=+∑=∑=+==

T

uii

u

ii pp

(3.3)

(3.4)

Para discriminar los conjuntos, Otsu define la varianza de cada conjunto disjunto de píxeles,

separado por un valor de luminancia conocido con el nombre de umbral u como sigue:

( ) ( )2112

002

TT μμωμμωσ −+−= (3.5)

De modo, que Otsu busca escoger el umbral óptimo u, capaz de partir formando los dos

conjuntos disjuntos que maximicen el valor de 2σ . En resumen se busca maximizar la varianza para

cada clase o minimizar la varianza entre clases.

{ }2

2551

* maxarg σ<≤

=u

u (3.6)

El método de Otsu es fácilmente extensible a métodos de segmentación en los que se quiere

calcular más de un umbral para obtener un conjunto de n conjuntos disjuntos que separen todas las

posibles regiones u objetos de la imagen. Y así se ha llevado a cabo, en el Capítulo 4, para

implementar uno de los métodos de segmentación, aportación de esta Tesis doctoral.

{ } { } { }1,...,,...,,...,1,,..,1 2111 −=+= LuCuuCuC nnO (3.7)

donde { }nuuuU ,...,, 21= es el conjunto de umbrales que son detectados.

De modo similar a como se hizo en la ecuación (3.6) y generalizando, Otsu elige los umbrales

óptimos para formar los M conjuntos disjuntos que definen las n Gaussianas que definen las regiones

u objetos presentes en la escena, mediante la maximización de:

{ }2

...1maxarg

21

σLuuu n

U<<<<≤

= (3.8)

( )∑ −==

n

kTkk

1

22 μμωσ (3.9)

Ahora, la media de cada distribución Gaussiana, así como la de la imagen completa se pueden

poner como:

kCi

ikk

pi ωμ /∑ ⋅=∈

(3.10)

∑ ⋅=∑=

∑=∑=∑=

−

=∈

−

==∈ +

1

1

1

11

1

1,..., ,

L

ii

CikT

L

uiin

u

ii

Ciik

pi

ppp

k

nk

μμ

ωωω

(3.11)

(3.12)


- 38 -

donde Kμ es la media de niveles de gris para cada conjunto KC ; y donde Kω es la

probabilidad de que un píxel pertenezca a un conjunto KC ; y Tμ , la media de intensidades para toda

la imagen siendo ip el número de píxeles con un valor de luminancia i .

El método tradicional de Otsu consume bastante tiempo computacional y en la literatura han

aparecido muchas implementaciones de este método para mejorar el coste computacional, bien

variando el criterio de maximización, bien introduciendo implementaciones recursivas [Cheriet-

1998][Liao-2001] y automatizadas del método, o bien empleando tablas de precómputo de las

varianzas [Cheriet-1998].

Método de Ridler.

El método de Riddler [Ridler-1978] también se basa en el concepto de distribución Gaussiana.

Así, en este método se pretende asemejar el histograma a un conjunto de funciones Gaussianas con

desviación típica semejante. En tal caso, el punto de intersección entre Gaussianas está determinado

por el valor intermedio entre las medias de las distintas Gaussianas. Para el caso base, en que hay que

separar un objeto del fondo, se dispondrá de dos Gaussianas. Inicialmente, se desconoce el valor de

media de cada Gaussiana de modo que se toma una suposición inicial (valor de luminancia más alto y

el más bajo para una y otra Gaussiana, respectivamente), y aplicando un proceso iterativo se busca

alcanzar el valor de media en cada caso. El método consiste en obtener la media de ambas Gaussianas

como el valor óptimo que separa una distribución de la otra. Así, el valor de media de cada Gaussiana

va dividiendo el histograma en tantas partes como distribuciones Gaussianas, cada una de ellas con sus

medias. Y, para cada una de las iteraciones se vuelve a dividir, obteniendo de nuevo nuevas medias y

así sucesivamente hasta que la diferencia entre medias es lo suficientemente pequeña y ya no se puede

seguir iterando. En la práctica, no es fácil encontrar un umbral de luminancia que separe las

distribuciones espaciales por niveles de luminancia, y por lo tanto muchas veces es imposible

encontrar un conjunto de valores que separen completamente cada una de las regiones. Sin embargo,

la selección iterativa de un umbral puede emplearse para optimizar la conversión de una imagen de

niveles de gris a una imagen binaria minimizando el error cuadrático medio respecto a la media de

cada población como comenta Magid [Magid-1990].

Método de Kittle-Illingoworth o mínimo error de clasificación

El método de Kittler [Kittler-1986] es similar al método de Otsu ya que se basa en el cálculo

del umbral óptimo para las k funciones Gaussianas que definen en el histograma cada uno de los

objetos a segmentar y que vienen caracterizadas por sus medias kμ y por sus desviaciones típicas kσ .


- 39 -

En el caso de separar objeto de fondo, el umbral óptimo se calcula como aquel que minimiza el índice

J,

( )∑ −⋅=∈ kCk

kkkJ )log()log( ωσω (3.13)

siendo,

kCk

kkk

pk ωμ /∑ ⋅=∈

(3.14)

∑ −=

∑=∑=∑=

∈

−

=

−

=∈

k

nk

Ckkk

kk

L

ukkn

u

kkk

Ckkk

kp

ppp

22

11

0

)(1

,..., ,1

μω

σ

ωωω

(3.15)

(3.16)

Métodos de Jawahar

Trabajos más actuales, emplean técnicas de lógica difusa o borrosa [Jawahar-1997]. Así, el

cálculo del umbral o conjunto de umbrales óptimos se fundamenta en el concepto de similitud.

Jawahar busca asignar clusters borrosos a píxeles dependiendo de las diferencias entre la media de las

dos clases. Por ejemplo, supongamos que se quiere separar un objeto del fondo, en tal caso es

necesario determinar el umbral que forma dos conjuntos disjuntos que denominamos clusters, i=0,1.

De modo que la pertenencia de un píxel a un cluster borroso viene dada por:

1/2

1

00

),(),(

1

1−

⎟⎟⎠

⎞⎜⎜⎝

⎛+

=τ

τμ

mkdmkd

(3.17)

ττ μμ 01 1−= (3.18)

En esta expresión, d es la distancia Euclídea entre un valor de luminancia k y la media de una

de las posibles clases a las que puede pertenecer, mientras que τ es el índice borroso. En el caso de que

τ=1, el método de Jawahar se reduce al método de clusterizado k-means [MacQueen-1967][Huang-

1998]. El valor de 0m y 1m son las medias de las dos clases que forman los conjuntos disjuntos. El

algoritmo consiste en inicializar iμ y calcular (3.19). Después se calculan (3.17) y (3.18) y se repite el

proceso recalculando las ecuaciones (3.19), (3.17) y (3.18) hasta que no haya cambios en oμ y 1μ .

1,0,255

0

255

0 =∑ ⋅

∑ ⋅⋅=

=

= ip

pkm

kik

kik

iτ

τ

μ

μ (3.19)


- 40 -

3.1.1.6. Métodos basados en entropía

Del mismo modo, los métodos basados en el concepto de entropía también se pueden

clasificar en tres grandes grupos.

• Métodos de entropía clásica: Método de Kapur

• Métodos de entropía cruzada: Método de Li.

• Métodos de entropía borrosa: Método de Shanbag.

Método de entropía clásica

Pun [Pun-1981] fundamenta el cálculo de los valores de umbral, en función del concepto de

entropía. Se define entropía como

∑ ⋅−== 255..0

)log(k

kk ppE (3.20)

Así, se considera la imagen I como un sistema formado por n·m elementos cada uno de los

cuales puede adoptar un estado k de los 256 posibles, que corresponden a cada uno de los posibles

niveles de gris desde 0 a 255. La probabilidad kp de que un elemento elegido al azar se encuentre

entre dichos estados es mn

kpk ⋅= .

Así, para cada objeto en la imagen { } { } { }1,...,,...,1,...,,1,..,0 2111 −=−−= LuCuuCuC nnO habrá

una entropía,

∑ ⋅−=∑ ⋅−=∑ ⋅−==

−

=∈

2551

01 )log(,......,)log( ,)log(

1

nK uiiin

u

iii

Ckkkk ppEppEppE (3.21)

De modo, que Pun considera la imagen como un conjunto de fuentes de señal distintas, y en la

que el umbral optimo será aquel que maximice la suma de entropías de cada objeto.

⎭⎬⎫

⎩⎨⎧∑=∈ KCk

kEU max (3.22)

La justificación de que la entropía se modele como una función logarítmica se puede estudiar

en [Ricard-2001]. Kapur [Kapur-1985] modificó las probabilidades de ocurrencia de los elementos,

como:

k

k Pkp = (3.23)

mnikipPi

ik ⋅=≠∑−= ..1, que tal1 (3.24)


- 41 -

Siguiendo con la misma idea, Yen [Yen-1995] redefine el término de entropía como un valor

de correlación entrópica, y define el umbral óptimo a partir del valor que maximiza esa correlación

entrópica.

⎪⎭

⎪⎬⎫

⎪⎩

⎪⎨⎧∑ ⎟⎟

⎠

⎞⎜⎜⎝

⎛⋅−=

∈

2

loglogKCk k

k

k

kk P

pPp

E (3.25)

donde se busca maximizar:

⎭⎬⎫

⎩⎨⎧∑=∈ KCk

kEU max (3.26)

Años después, Sahoo [Sahoo-2004] combinó los resultados de los diferentes métodos de

entropía clásica construyendo un valor de entropía más genérico, que dependía de un parámetro ρ. En

función del valor de este parámetro calculaba la entropía según los métodos Kapur y Yen.

Método de entropía cruzada

Otros métodos de obtención de umbrales para la segmentación se basan en el concepto de

entropía cruzada. La entropía cruzada se puede interpretar como una medida de distancia que define el

grado de diferencias entre la imagen original y la imagen umbralizada. La medida de distancias en que

se basa es la distancia de Kullback-Leibler [Cover-1991]. De modo que la distancia entre la función

densidad de probabilidad de la imagen original p y la distribución de la imagen umbralizada que

determina el grado de diferencias, se mide como:

∑ ⎟⎟⎠

⎞⎜⎜⎝

⎛⋅=

k

kk p

qpqpd log),( (3.27)

Así, Li [Li-1993][Li-1998], determinó como un mecanismo para obtener el umbral que separa

un objeto del fondo en una imagen con un solo objeto, la minimización del factor de correlación

cruzada.

⎪⎪⎭

⎪⎪⎬

⎫

⎪⎪⎩

⎪⎪⎨

⎧

∑⎟⎟⎟⎟

⎠

⎞

⎜⎜⎜⎜

⎝

⎛

∑⋅⋅+∑

⎟⎟⎟⎟

⎠

⎞

⎜⎜⎜⎜

⎝

⎛

∑⋅⋅=

+=

+=

=

=

255

1 255

1

0

0

* loglogminarguk

uk

kk

u

k u

k

kk

k

ppk

k

ppku (3.28)

A partir del concepto de entropía cruzada, Pal [Pal-1996] modeló ésta a partir de las funciones

de probabilidad de los objetos presentes en la imagen y del fondo, en vez de hacerlo en función del

concepto de distancia.


- 42 -

Método de entropía borrosa

Al igual, que en otros métodos, también, a finales de los años 90, se introdujo el término

difuso o borroso en el término de entropía. Considerando el término de entropía borrosa para

determinar el grado en el que el valor de luminancia de un píxel puede pertenecer a la clase de un

objeto u otro del primer plano, o bien a la clase o conjunto del fondo de la imagen.

Visto de este modo, es obvio que los píxeles cuyos valores de luminancia coincidan con el

valor de umbral o umbrales óptimos, tendrán máxima incertidumbre. Ya que la probabilidad de que

pertenezcan a una clase u otra de las dos más próximas en valores de luminancia será del 0.5. Es decir,

habrá un 50% de probabilidades de pertenecer a una u otra clase, de las dos adyacentes.

Para el caso básico, dónde se busca separar un único objeto del primer plano del fondo, el

umbral óptimo se puede calcular minimizando la suma de entropías borrosas. Así, Shanbag [Shanbag-

1994] propuso el siguiente modelado:

( ) ( )⎭⎬⎫

⎩⎨⎧

∑ ⋅−

+∑ ⋅−=+==

255

11

0

* log1

logminarguk k

ku

ko

k

k

Pp

Pp

u μμ (3.29)

Y posteriormente, Cheng [Cheng-1999a] realizó algunos cambios en el modelado propuesto

por Shanbag, para convertir el problema de búsqueda de umbrales en un problema de maximización.

3.1.2. Segmentación de imágenes basada en regiones

Se agrupan como técnicas basadas en regiones todas aquellas que realizan la búsqueda de

regiones en una imagen sin necesidad de utilizar mecanismos adicionales como la determinación de

umbrales o la detección de bordes en una imagen.

Las técnicas más conocidas son: el crecimiento de regiones y la división-unión de regiones.

3.1.2.1. Crecimiento de regiones

El método de crecimiento de regiones es uno de los métodos más populares y consiste en

agrupar píxeles o subregiones de regiones más grandes. Para ello, se emplea como principio

fundamental la adicción de píxeles, a un conjunto de puntos semillas del que se parte y al que se le van

añadiendo píxeles vecinos que posean propiedades similares (contraste, valor de luminancia, matiz,

etc.).

En su forma más simple, comienza evaluando un píxel y entonces examina sus vecinos para

decidir si ellos tienen una propiedad (nivel de gris, color, textura) similar. Si es así, tales píxeles son

agrupados para formar una región. De esta forma se obtienen regiones a partir de píxeles simples.


- 43 -

Versiones más avanzadas del método no comienzan con píxeles sino con una partición de la imagen en

un conjunto de regiones pequeñas. En este caso, se aplica una prueba de uniformidad para cada región

inicial, si la prueba falla la región se subdivide en elementos más pequeños. Este proceso es repetido

hasta que todas las regiones sean uniformes. Luego comienza el proceso de crecimiento de regiones, el

cual se inicia con una región de interés y se unen regiones adyacentes si tienen propiedades similares.

La similitud entre dos regiones es a menudo basada en estadísticas simples tales como la varianza y el

promedio de niveles de gris. El proceso de unión continúa hasta que no hay más regiones adyacentes

similares, formándose así la región u objeto de interés (Figura 3-1).

Los principales problemas de esta técnica radican en la elección de la semilla. La elección de

ésta se suele basar en la naturaleza de la escena que se quiere segmentar y para ello se requiere de

algún tipo de información previa de las regiones a segmentar. Por ejemplo, como semilla se pueden

emplear máximos píxeles de la imagen que determinan máximos locales en un histograma

Figura 3-1: Ejemplo del Método de Crecimiento de regiones.

Es muy común emplear este tipo de segmentación en imágenes biomédicas, de células, tejidos

musculares, vasos sanguíneos, etc. Esto es así, porque en este tipo de imágenes se tiene un

conocimiento previo del concepto o elemento que se quiere segmentar. De este modo, es posible

aplicar heurísticas que permitan determinar propiedades basadas en niveles promedio de valores de

luminancia, contraste, matiz, etc. que permitan obtener el conjunto de regiones homogéneas que

determinen la segmentación de la imagen.

Dentro de los criterios de homogeneidad tenemos la similitud región/subregión y la

uniformidad por región. Bajo el criterio de similitud de región/subregión, una región I es subdividida

en alguna forma arbitraria en n subregiones { }nIII ,..., 21 . Luego se calcula un conjunto de estadísticas

de nivel de gris para I y para cada una de las subregiones Ii. Estas estadísticas dan como resultado un


- 44 -

vector característico para cada Ii, entonces se dice que I es homogénea si estos vectores característicos

no difieren considerablemente. Entre las estadísticas que pueden ser utilizadas tenemos: estadísticas de

primer orden, tales como la media y la varianza de niveles de gris; estadísticas de segundo orden, tales

como aquellas usadas para descripción de textura: correlación, contraste; estadísticas de varias

propiedades locales, tales como: magnitud del gradiente medio. Usando el criterio de uniformidad de

una región I, se calcula una medida de la variabilidad del nivel de gris de V(I(x,y)); como por ejemplo

la varianza, la desviación estándar o el rango intercuartil de nivel de gris. Entonces se usa una medida

de uniformidad de I, por ejemplo U = 1/(1 + V (I(x,y))) la cual es 1 cuando I tiene un nivel de gris

constante, y tiende a cero cuando V(I(x,y)) es bastante grande.

3.1.2.2. División y unión de regiones

La técnica de basa en un proceso de subdivisión inicial de regiones en la imagen (Figura 3-2).

Estas regiones forman un conjunto arbitrario y disjunto. Inicialmente, se selecciona un predicado P

que determina el nivel de homogeneidad de una región. A continuación, se comprueba para cada

región Ii todas aquellas que no satisfacen dicho predicado, en cuyo caso la región que no lo satisfaga

es que no es homogénea y debe ser dividida en subregiones. Generalmente, la división se hace en

cuatro cuadrantes disjuntos. Además, por otro lado, si la región evaluada Ii satisface el predicado y

otra región adyacente Ij, donde i≠j, entonces ambas regiones son homogéneas y deben ser unidas en

una única región. A este método que combina la división de regiones con características del método de

crecimiento, se le conoce como ‘split and merge’ en la literatura anglosajona o como ‘división y

unión’ de regiones.

La subdivisión inicial de la imagen, requiere la utilización de un método que permita una

división de modo regular y además incorpore un mecanismo de control cada una de las particiones

resultantes. Para ello se utilizó el método árbol cuaternario. Este método permite dividir una imagen

en cuatro regiones regulares. Para ello se supone que la imagen es una matriz cuadrada I, cuya

dimensión es una potencia de 2, es decir, I2n

x2n. Entonces I, puede ser dividida en 4 matrices cuadradas

I0, I1, I2, I3, cuyas dimensiones son I2n-1

x2n-1. Este proceso puede ser repetido de manera recursiva n

veces, hasta que se alcanza el nivel de píxeles simples es decir regiones de 1x1. De esta forma se

construye un árbol, cuyos nodos corresponden a los cuadrados Ii0, Ii1, Ii2, Ii3. La raíz del árbol

corresponde a la imagen completa, las hojas a los píxeles simples, y todos los otros nodos tienen grado

cuatro. Una división completa de la imagen representa un nivel del árbol cuaternario. Los métodos de

crecimiento y división de regiones emplean, como se ha comentado, criterios de homogeneidad

similares y sólo se diferencian en la dirección de su aplicación. El método ‘división y unión’ combina

las ventanas de ambos métodos.


- 45 -

Figura 3-2: Ejemplo del método de división de regiones empleando árboles cuaternarios.

3.1.3. Segmentación de imágenes por bordes y contornos

Otros métodos de segmentación de imagen a destacar son todos aquellos que tienen como

finalidad la detección de las transiciones entre dos o más regiones significativamente distintas. Por lo

tanto, el objetivo de estos métodos de segmentación es la localización de bordes o contornos que

forman los puntos en los que se produce una variación de luminancias.

En general, los métodos de segmentación por detección de bordes se basan en cuatro tipos de

transformaciones: aproximaciones por gradiente, aproximaciones por Laplaciana, técnicas basadas en

máscaras con distintas orientaciones, y técnicas que ajustan valores de luminancia con modelos

parametrizados de los bordes.

3.1.3.1. Aproximación por gradiente

Las técnicas basadas en aproximaciones por gradiente consisten en buscar picos que

representan un cambio brusco de intensidades. Estos cambios vienen dados por la primera derivada,

representada por el vector gradiente. Así, el vector gradiente se define como la máxima variación de

luminancia en magnitud y en dirección.

En los últimos 40 años se han definido diferentes operadores basados en aproximaciones del

concepto de vector gradiente para la detección de bordes en imágenes digitales. De entre todos ellos

cabe destacar las máscaras de gradiente de Sobel, Roberts, Prewitt y Frei-Chen [Torres-2002].

El detector de Canny [Canny-1986] se fundamenta en un proceso de optimización que

combina tres factores: localización, detección y ausencia de ambigüedad. Es decir, se busca minimizar

la distancia entre píxeles señalados como bordes y los bordes reales. Además, es necesario detectar

todos los bordes y únicamente ellos. Y por último, debe identificarse una única respuesta para cada

borde.


- 46 -

Canny calcula el módulo y dirección del gradiente, y busca comparar el valor de la magnitud

del gradiente para cada píxel con el de sus vecinos a lo largo de la dirección del gradiente. Así, tiene

lugar un proceso conocido con el nombre de supresión de no-máximos, que consiste en eliminar todos

aquellos píxeles cuyo gradiente no es máximo, no considerándose estos píxeles como parte de un

borde. En el Capítulo5, donde se presenta una de las aportaciones de esta Tesis, se hace uso del

detector de Canny como etapa de procesamiento básica para fijar un espacio de búsqueda de posibles

contornos de borde y posteriormente aproximar éstos por segmentos.

Además de los trabajos de Canny, cuyo detector de bordes en imágenes en escala de grises

sigue empleándose actualmente en nuestros días combinándose con otras técnicas, también es

importante mencionar los trabajos de Cumani [Cumani-1991] para la detección de bordes en imágenes

multiespectrales como pueden ser las imágenes en color.

3.1.3.2. Aproximación por Laplaciana

Las técnicas basadas en aproximaciones por Laplaciana consisten en buscar lo que se

denomina pasos por cero o ‘zero-crossing’. En una imagen, los cambios de luminancia se representan

por un máximo en la primera derivada a lo largo de dicha dirección (gradiente máximo), y por un paso

por cero en la segunda derivada (Laplaciana) en cualquier dirección. De ahí que un borde será óptimo

cuando la magnitud del gradiente sea máxima y la segunda derivada sea cero.

En la práctica, al aplicar la segunda derivada mediante operadores gradiente rara vez se

producen ceros. De ahí, que lo que se busca realmente sean los pasos por cero. Un paso por cero no es

más que un paso de una respuesta positiva a una respuesta negativa. Es decir, los sitios en la imagen

donde para un valor positivo de un píxel se pasa a valores negativos en su entorno de vecindad, o

viceversa.

En las imágenes digitales es necesario emplear una aproximación de la Laplaciana del mismo

modo a como se hizo con el gradiente. Así, la Laplaciana de una imagen se puede obtener como

convolución de una imagen con una cierta máscara adecuada definida por un operador. Los operadores

Laplaciana más usados son los de Wallis [Torres-2002].

Con frecuencia, los bordes que representan los contornos de un objeto generalmente aparecen

seccionados, cortados e inconexos debido al índice de ruido en la imagen como consecuencia del

proceso de adquisición y formación de la imagen. O también, pueden aparecer falsos contornos en la

superficie de los objetos de la escena. Por lo tanto, finalmente, es necesario someter los bordes

detectados a métodos de aproximación que permitan extraer modelos parametrizados de los bordes

(Figura 3.3).


- 47 -

Entre los métodos de parametrización de bordes destacan los basados en la detección de líneas

y círculos mediante transformada de Hough HT [Illingworth-1988] y sus variantes [Matas-1998].

Figura 3-3: Ejemplo de método de segmentación bordes.

3.1.4. Segmentación por transformada de ‘Watershed’

Finalmente, cabe mencionar otros métodos como la segmentación por ‘watershed’ en

terminología anglosajona, también conocido como segmentación por línea divisoria de aguas. Aunque

algunos autores e investigadores lo encuadran dentro de los métodos de segmentación basados en el

crecimiento de regiones, su naturaleza particular basada en la morfología matemática ha requerido que

se le dedique un apartado concreto.

Los métodos basados en la transformada de ‘watershed’ proporcionan una herramienta

morfológica muy potente para la segmentación de imágenes. El principio básico de este tipo de

segmentación consiste en considerar una imagen como un relieve topográfico, donde el valor

numérico de cada píxel representa una elevación en ese punto. De modo que la transformada de

watershed interpreta la imagen como un conjunto de regiones que se encuentran bajo la influencia de

mínimos locales de intensidad. A estas zonas de influencia se les denomina cuencas, y a la separación

entre las cuencas se les conoce con el nombre de líneas divisorias de aguas.

Los métodos basados en ‘watershed’ calculan una imagen gradiente a partir de la imagen

original a procesar. Así, las zonas que disponen de un gradiente elevado se consideran las líneas

divisorias que separan las cuencas o zonas de mínimos regionales. Estas zonas con bajo gradiente se

consideran zonas de la imagen con cierta homogeneidad que son susceptibles de ser separadas en

regiones. En la figura 3-4 se muestra un ejemplo de proceso de segmentación por watershed.

Inicialmente, se observa la imagen original, posteriormente la imagen de cuencas y líneas divisorias, y


- 48 -

finalmente dos resultados de segmentación: uno con una mala segmentación que divide la imagen en

más zonas de las deseadas (sobresegmentación) y otro con una segmentación adecuada.

La segmentación por watershed se ha aplicado en los últimos años tanto a imágenes

bidimensionales [Park-2004] como tridimensionales [Liu-2004]. Además la transformada de

watershed se ha aplicado con éxito tanto a imágenes en escala de grises [Beucher-1992] como a

imágenes en color o multiespectrales [Vanhamel-2003] [Noyel-2007].

Figura 3-4: Ejemplo de segmentación watershed.

3.2. La luz estructurada en el proceso de segmentación

En muchas aplicaciones, a veces, uno quiere estimar medidas de distancia por ejemplo, para

determinar si un objeto está más cercano que otro en una escena, si un objeto supone un obstáculo para

otro en el momento de ser manipulado por un brazo robot, o bien porque se desea estimar la forma o

geometría aproximada de una superficie de un objeto. Una imagen de valores de gris, donde el único

parámetro que proporciona información es el valor de luminancia que es capaz de irradiar la superficie

de los objetos en la escena tiene un uso limitado. Esto es debido a que no existe una relación directa

entre el valor de luminancia de un píxel y la geometría de la superficie del objeto al que representa en

la imagen. La relación entre valores de luminancia y la geometría sólo existe si se tienen en cuenta

factores como las propiedades geométricas y ópticas de las superficies, y como se comportan éstas

ante distintas condiciones de luz existentes en cada instante de tiempo. Todos estos problemas hacen

que aumente la complejidad de extraer información válida para proporcionar medidas de la estructura

tridimensional de la escena. Como consecuencia, en muchos casos, se recurre al empleo de imágenes

de rango como alternativa.

Las imágenes de rango son una clase especial de imágenes digitales, dónde cada píxel de una

imagen de rango expresa la distancia entre un marco de referencia conocido y un punto visible en la


- 49 -

escena. Por lo tanto, una imagen de rango reproduce parte de la estructura tridimensional de la

escena, y se puede entender como una imagen de superficie muestreada.

Hay cinco campos de investigación abiertos para obtener parte de la información de estructura

de una escena: modelos de reflexión, formas a partir de sombras (SFS), formas a partir de enfoque

(SFF), fotogrametría, luz estructurada y visión estereoscópica.

3.2.1. Modelos de reflexión

La cantidad de luz codificada, en una imagen digital, como el valor de luminancia de un píxel

particular de una imagen digital, puede ser entendido como el resultado de las interacciones entre la

superficie de los materiales y las fuentes de luz. De modo, que aunque directamente no parece haber

relación entre geometría y valores de luminancia de la imagen de niveles de gris, las leyes de reflexión

de la luz, así como las características de reflexión de los objetos observados permiten obtener cierta

información de tridimensionalidad. Aunque lo cierto es que rara vez se extrae información estructural

de este modo, porque los métodos son complejos y no especialmente robustos ante condiciones de luz

cambiantes.

Para poder recuperar, con estos métodos, información tridimensional de los objetos en la

escena, como valores de profundidad u orientación de las superficies, es necesario asumir cierta base

teórica basada en modelar el comportamiento de distintos tipos y materiales de superficie ante la

reflexión de la luz. Además, el principal inconveniente de estas técnicas es que no trabajan

adecuadamente si las superficies de los objetos producen brillos que impidan una reflexión más o

menos homogénea. Es decir, estos métodos generalmente, no modelan las propiedades de reflexión del

objeto explícitamente y además asumen que la superficie del objeto es completamente mate. Algunas

de las herramientas fundamentales para modelar las propiedades de reflexión de superficies

construidas con materiales distintos son las conocidas funciones de distribución de reflectancia

(BRDF) muy empleadas en tareas de gráficas por computador o visión por computador. Las BRDF

fueron definidas por la Nacional Bureau of Standards en USA.

Las BRDF [Klette-1998] describen como brilla una superficie diferencial de un material

cuando es observado desde una dirección general y es iluminada mediante una dirección determinada.

Con frecuencia, en la práctica se suele asumir que la dirección del punto de vista del observador no

cambia. Y se asume, también, que las direcciones de iluminación no varían y que los cambios que se

producen sólo son debidos a cambios de orientación de la superficie. Así, se introdujo el concepto de

mapa de reflectancia para modelar la relación entre la radiación reflejada y la orientación de la

superficie.


- 50 -

3.2.2. Modelos de formas a partir de sombras

Otra de las posible técnicas para extraer información tridimensional a partir de una imagen

digital es empleando modelos de formas a partir de sombras. A este tipo de técnica se le conoce con el

sobrenombre de SFS (Shape from Shading). El objetivo de esta técnica es obtener información de

reconstrucción de superficies no-planas a partir de una simple imagen de luminancias. Sin embargo, el

problema no es fácilmente solucionable, y como se puede suponer no parece haber suficiente

información en una simple imagen digital de luminancias para reconstruir la superficie de un objeto,

sin que haya ambigüedad. De ahí, que sea necesario emplear importantes restricciones. Así, los

métodos basados en SFS emplean mapas de reflectancias conocidos que modelan la iluminación y las

propiedades de reflexión de la superficie del objeto. Algunas de las asunciones de este tipo de métodos

radican en:

• Es necesario conocer las propiedades de reflexión de las superficies del objeto. De acuerdo a

funciones BRDF.

• La interacción entre fuente de luz y las propiedades de reflexión se pueden describir como

mapas de reflectancias. Por lo tanto, una única manera de irradiar la escena es asignada a cada

orientación de la superficie. Es decir, es necesario conocer todos los mapas de reflectancias,

uno para cada posible orientación.

• Se asume que la superficie reconstruida es continua y diferenciable.

• El sensor se supone tiene un comportamiento lineal.

• Se emplea siempre una proyección ortogonal, generalmente. Aunque hay métodos que

emplean proyección de perspectiva.

3.2.3. Modelos de formas a partir de enfoque

La técnica de modelos de formas a partir de enfoque, también conocido en la bibliografía

anglosajona con el sobrenombre de SFF (Shape from Focus), tiene como finalidad la estimación de

profundidades en superficies tridimensionales, a partir de medidas de enfoque y desenfoque de la

cámara aplicadas sobre la captura de un conjunto de dos o más imágenes de una escena a reconstruir

(Figura 3-5). La diferencia entre la técnica que calcula las profundidades a partir del enfoque y la que

lo hace a partir del desenfoque radica en que en el primer caso es posible cambiar dinámicamente los

parámetros de la cámara durante el proceso de estimación de la superficie, mientras que en el segundo

caso esto no es posible. El objetivo de la técnica SFF es maximizar el contraste entre imágenes de la

escena modificando el enfoque.


- 51 -

Mientras, que en muchas técnicas de estimación tridimensional de información de una escena

se usan imágenes obtenidas a partir del modelo pin-hole de cámara (ver Anexo A.3), en este método el

proceso de formación de una imagen se modela con la ley de las lentes gruesas, donde la distancia

focal depende de: la distancia entre las lentes y el plano imagen y la distancia entre las lentes y el

plano de enfoque. En esta técnica se trabaja con la apertura de diafragma, delimitando la profundidad

de campo, obligando a que sólo pequeñas porciones en la imagen estén perfectamente enfocadas. Por

lo tanto, el principal problema radica en que la precisión suele disminuir con la distancia. Las lentes

reales son gruesas, de ahí que suelan limitar ciertas frecuencias por el fenómeno de difracción y

atenuar otras por el fenómeno de las aberraciones. Esto supone que los valores de intensidad en el

sensor CCD no son uniformes y que se haga necesario modelar matemáticamente los valores de

intensidad de cada píxel. Generalmente, cuando se emplea esta técnica se suele modelar la escena

como una superficie Lambertiana opaca y lisa, (por ejemplo: una función de distribución de

reflectancia bidireccional y constante) y unida a ésta se dispone de una textura que viene dada por la

radiación (es decir, la imagen enfocada). De ahí, que los valores de intensidad de cada píxel que se

forman en el CCD dependerán de la posición espacial en el sensor, del valor de enfoque y de la

superficie Lambertiana [Favaro-2002]. El valor de enfoque determina el contraste de cada píxel en la

imagen y existen en la literatura múltiples formas de evaluarlo [Nayar-1994][Favaro-2002]; las más

comunes: el operador Laplaciana, el operador Laplaciana modificado (ML), la suma del operador

Laplaciana modificado (SML), Medida de enfoque de Tanenbaum (TEN), Varianza de nivel de gris

(GLV) o la medida de enfoque óptico (FM) entre otras muchas.

Figura 3-5: Imágenes de una misma escena con diferentes enfoques y mapa de profundidades representado en escala de grises como valores de luminancia.

3.2.4. Modelos fotogramétricos

La fotogrametría se encuentra hoy en día totalmente ligada a disciplinas, entornos y sistemas

de digitalización. El desarrollo espectacular de la fotogrametría está, especialmente, ligado a la rápida

y constante evolución de la microelectrónica, los semiconductores (CCD, CMOS), al incremento de la

potencia de los ordenadores personales y a la aparición de software especializado de tratamiento


- 52 -

digital de imágenes. La fotogrametría se puede definir como la técnica para estudiar y definir con

precisión la forma, dimensiones y posición en el espacio de un objeto cualquiera empleando medidas

realizadas sobre una o varias fotografías.

Desde un punto de vista industrial, una de las principales aplicaciones de la fotogrametría es la

obtención de modelos CAD en procesos de ingeniería inversa o reingeniería (Figura 3-6). Los pasos

que se emplean para llevar a cabo este proceso fotogramétrico son los siguientes:

• Inicialmente, el objeto del que se quiere construir un modelo se marca con una serie de puntos

o marcas adhesivas. Para tener puntos de localización espacial de referencia que serán

empleados en la reconstrucción.

• Una vez toda la superficie del objeto ha sido marcada con estos puntos o marcas adhesivas, se

emplea una cámara calibrada para obtener un conjunto de fotografías desde distintos puntos

de vista.

• A continuación, cada una de las imágenes obtenidas sirven para calcular las coordenadas 2D

de cada representación de cada marca adhesiva en cada fotografía, la posición de la cámara

con la que se ha adquirido cada imagen y las coordenadas 3D de localización de cada marca

adhesiva en el espacio real.

• Finalmente, las coordenadas 3D de cada marca adhesiva, así como la posición de la cámara es

visualizada mediante un software de representación adecuado. Si se desea, puede aplicarse

textura para darle un aspecto más realista al modelo CAD.

Figura 3-6: Fotogrametría aplicada al modelado y reconstrucción de un vehículo.

3.2.5. Luz estructurada

La luz estructurada consiste en la proyección de patrones de luz sobre una escena. Estos

patrones de luz son proyectados en los objetos que se encuentran en el campo visual de la cámara. De

este modo, es posible obtener la distancia de un objeto a la cámara o la localización de un objeto en el

espacio mediante el análisis de los patrones de luz observados en la imagen.


- 53 -

Las coordenadas 3D de puntos de la escena en las imágenes pueden ser recuperadas

asumiendo que se conoce la geometría de adquisición y formación de la imagen y empleando técnicas

de triangulación. Los métodos que emplean la técnica de luz estructurada se pueden clasificar en

aquellos que hacen uso de patrones geométricos de luz, tales como puntos de luz, líneas de luz,

círculos de luz, y/o aquellos que emplean codificación temporal de patrones de luz.

Figura 3-7: Principio de triangulación para la reconstrucción con luz estructurada.

La geometría básica para sistemas de triangulación activa se muestra en la figura 3-7. En ella

se observa como el proyector de luz se sitúa a una distancia D del centro óptico o centro de proyección

de la cámara, comentado en el modelo de pin-hole (ver Anexo A.3). En el centro óptico se sitúa el

sistema de coordenadas de la cámara. De modo que todas las medidas del sensor láser serán

expresadas respecto a este sistema de referencia ( )CCC ZYX ,, . El eje CZ y el eje óptico de la cámara

coinciden, el eje CY está hacia abajo y el eje CX es perpendicular a los anteriores formando un sistema

de referencia dextrógiro. En la figura 3-8 se puede observar un ejemplo práctico de reconstrucción

aplicando el principio de triangulación mostrado en la figura 3-7 y posteriormente en la figura 3-9, el

objeto reconstruido y modelado. Este trabajo de reconstrucción forma parte de los comienzos

investigadores del autor de esta tesis y fue publicado en [Gil-2002].

Figura 3-8: Proceso práctico de reconstrucción tridimensional aplicando triangulación.

CZ CX

CY

MZ

MY

MX

D


- 54 -

Como se ha comentado, existe una gran variedad de métodos para la reconstrucción de formas

o superficies a partir de imágenes de rango, la mayoría de ellos están compuestos por un conjunto de

etapas o tareas que consisten en la adquisición de datos, etapa encargada de la captura de un conjunto

de medidas de profundidad, a partir de las vistas del objeto. El registro e integración, etapa encargada

de unir múltiples vistas y llevarlas a un sistema de coordenadas común. La segmentación, que consiste

en agrupar puntos con propiedades homogéneas en regiones etiquetadas. Y por último, el ajuste de las

superficies, que consiste en estimar una superficie paramétrica que se ajuste a las diferentes

agrupaciones de puntos. Cada una de las etapas de la reconstrucción de superficies se ha constituido,

independientemente, en el objetivo de numerosos trabajos de investigación, que han tenido como

finalidad establecer técnicas, algoritmos o métodos que logren un desempeño óptimo y generalizado

para cada una de ellas.

Figura 3-9: Objeto digitalizado y objeto real.

Pero en ocasiones, en la escena interrelacionan dos o más objetos, y en tales casos, se obtienen

imágenes de rango (Figura 3-10) dónde vienen representadas distancias, o datos tridimensionales que

permiten reconstruir la escena pero sin determinar dónde comienza y termina cada objeto. De modo,

que cualquiera de estas metodologías comentadas no serían capaces de discernir las superficies de

cada uno de los objetos existentes, y tomarían estos como un todo compuesto de distintas superficies

con distintas formas y orientaciones. De ahí, que al igual que ocurre con las imágenes en escala de

grises es necesario someter a las imágenes de rango a un proceso de segmentación. Aquí, también, el

proceso de segmentación consiste en delimitar las superficies de los objetos en la imagen, facilitando

el etiquetado de los píxeles que pertenecen a cada región.


- 55 -

Figura 3-10: Ejemplo de imagen de rango a partir de medidas de profundidad.

La segmentación de una imagen de rango consiste en colocar una etiqueta igual a los píxeles

con propiedades geométricas similares o que pertenezcan a una misma superficie u objeto. De modo

que el problema de segmentación de imágenes de rango es similar al problema de segmentación

clásico de imágenes en escala de grises o imágenes en color (ver Apartado 3.1).

Por este motivo, la mayor parte de propuestas y trabajos realizados en la segmentación de

imágenes de rango tienen similitud con muchas de las técnicas de segmentación clásicas. Y hay dos

vertientes de estudio [Hoover-1996]: segmentación basada en regiones y segmentación basada en

bordes. Aunque actualmente, nuevas corrientes de estudio tratan de discernir los objetos presentes en

una imagen de rango a partir de características volumétricas [Herbert-1995] o superficiales [Adán-

2004][Salamanca-2007].

En la primera de ellas, se emplea un etiquetado a partir del principio de crecimiento de

regiones, a las cuales se le van añadiendo otros píxeles a su alrededor con las mismas propiedades

geométricas. En la segunda de ellas, la segmentación va etiquetando los píxeles guiándose por los

bordes y contornos de las formas detectadas. Estas técnicas son brevemente comentadas en el apartado

siguiente.

3.2.6. Imágenes de rango

En muchos casos, en que la interpretación de la imagen se vuelve compleja, se hace necesario

el empleo de un proceso de segmentación que emplee cierta información de más alto nivel que la

empleada en las técnicas anteriores. Generalmente, este tipo de información de alto nivel hace

referencia a estructuras. Frecuentemente, estas estructuras son las superficies de los objetos que

interaccionan en la escena. Así, uno de los requisitos fundamentales para la detección de objetos es un

proceso de segmentación lo más preciso posible, capaz de preservar las formas de los objetos y la

localización de sus contornos.


- 56 -

Además de esas dos, existen otras restricciones que según Boulanger [Boulanger-2005] se

deben cumplir en un proceso de segmentación de imágenes de rango:

• La información producida por un proceso de segmentación de imágenes de rango tiene que ser

accesible a alto nivel.

• El proceso tiene que ser estable y repetible.

• El proceso de segmentación tiene que ser capaz de mostrar la mejor representación del

conjunto de datos, de acuerdo a un nivel de tolerancia.

• La segmentación tiene que ser robusta.

• Los modelos geométricos complejos deben estar estadísticamente justificados.

Cuando se procesan imágenes digitales buscando segmentar una serie de objetos, el proceso de

segmentación no es nada trivial, y se hace aun más complejo. Puede haber diferentes objetos, con

distintas formas y tamaños, y disponerse en distintas posiciones. Y además hay que añadir los ruidos

de capturar y los errores de digitalización.

En los últimos años han proliferado mucho los estudios e investigaciones para obtener

imágenes de rango, y como consecuencia se han desarrollado muchas técnicas de segmentación que

trabajan con este tipo de imágenes. De ahí, que se pueda extraer con estas técnicas información

tridimensional y geométrica de la escena que puede ayudar a detectar regiones y objetos. Ya a finales

de los años 80, Besl [Besl-1988] introdujo el contexto de utilización de las imágenes de rango.

Las técnicas de segmentación basadas en imágenes de rango según Hoover [Hoover-1996]

emplean una de estas aproximaciones básicas o una combinación de ambas: basadas en regiones,

basadas en contornos o técnicas híbridas que usan tanto regiones como contornos. Hoover en un

estudio de análisis de técnicas de segmentación realizado a mediados de los 90, llegó a la conclusión

que ni siquiera la segmentación de objetos poliédricos en escenas simples era un problema que tuviera

una solución buena hasta la fecha. Más tarde, las investigaciones de Jiang [Jiang-2000] y Min [Min-

2004] confirmaron las conclusiones a las que había llegado Hoover años atrás. Estos afirmaron que el

principal problema radicaba en que la mayoría de los algoritmos empleados es difícil que detecten

bien, al mismo tiempo, superficies geométricas y localización exacta de contornos.

3.2.6.1. Segmentación basada en regiones

Los algoritmos de segmentación de imágenes de rango basados en regiones son todos aquellos

que agrupan píxeles formando regiones conectadas cuya principal característica es que disponen de

cierta medida de homogeneidad (Figura 3-11). A este tipo pertenecen las técnicas basadas en

crecimiento de regiones y en métodos basados en ‘clustering’, comentados anteriormente, pero ahora

con la salvedad que la fuente de entrada de aplicación serán imágenes de rango y no imágenes de

luminancias o color. Estas técnicas tienen una serie de problemas, principalmente referentes al control


- 57 -

de los algoritmos empleados. Así, el crecimiento de regiones tiene una gran dependencia del número

inicial de regiones que se selecciona para empezar la búsqueda. En los algoritmos de ‘clustering’ es

difícil determinar el número de clusters en la imagen de rango, y en muchos casos se producen

problemas de sobresegmentación, es decir se divide la imagen en más regiones de las deseadas. De

ahí, que a posteriori sea obligatorio procesos de post-segmentación para eliminar las últimas

iteraciones de segmentación y reagrupar de nuevo ciertas regiones sobresegmentadas. Todos estos

problemas fueron comentados por Hoover [Hoover-1996] en sus trabajos comparativos sobre

segmentación en imágenes de rango.

Si además las superficies son complejas y se alejan de las formas poliédricas, los problemas que

surgen son mayores, y los resultados de segmentación obtenidos mucho más pobres, como comenta

Powel [Powel-1998].

Figura 3-11: Ejemplo de segmentación a partir de imagen de rango.

3.2.6.2. Segmentación basada en contornos

Los algoritmos de segmentación de imágenes de rango basados en contornos son todos

aquellos que buscan localizar los contornos entre regiones homogéneas (Figura 3-13). Estas técnicas

de segmentación son más criticadas en la literatura por tender a producir contornos no-conectados, y

en muchos casos requieren de un post-procesamiento para conectar los contornos detectados. Sin

embargo, también tienen sus ventajas. Los algoritmos empleados para implementar la detección de

contornos tienen estructuras de control más sencillas, además de emplear operadores como la

convolución que hacen que este tipo de algoritmos sean más fáciles y adecuados de implementar en

tarjetas de procesamiento, arquitecturas paralelas, etc. Además, debido a la propia naturaleza de los

contornos, cuando estos son localizados generalmente son localizados con mayor exactitud que los

límites de región en los métodos basados en regiones.

En la mayoría de los casos, los estudios y algoritmos de segmentación basados en bordes que

se han desarrollado sufren de algunas carencias [Jiang-1998a][Jiang-1998b]:

• No se hace ninguna interpretación geométrica de la fortaleza del contorno.


- 58 -

• No suelen clasificar tipos de borde que detectan de acuerdo a alguna particularidad o

característica.

• No suelen comparar con otros detectores de borde óptimos o a modo teórico.

• Emplean pocas veces tests de imágenes reales, y cuando lo hacen lo llevan a cabo con un

número muy limitado de imágenes.

Para evitar las dos de esas primeras carencias, se podría partir de la siguiente clasificación de

contornos: contornos de salto, contornos de pliegue, y contornos suaves.

Los llamados contornos de salto que son definidos como discontinuidades en valores de

profundidad. Este tipo de contornos suele aparecer cuando un objeto es ocluido por otro o por si

mismo. Los contornos de pliegue son aquellos que se forman cuando dos superficies se encuentran.

Este tipo de contornos se caracteriza por las discontinuidades en superficies normales. Y finalmente,

los contornos suaves son aquellos con superficies normales continuas pero con curvaturas de

discontinuidad. El cálculo de la curvatura de discontinuidad es extremadamente costoso en imágenes

de rango debido al ruido de captura. Por este motivo, es difícil ver en la literatura desarrollos que

consigan una segmentación precisa y funcionen bien en la detección de éste tipo de contornos [Jiang-

1998a].

Según Krishnapuram [Krishnapuram-1992], los contornos de pliegue pueden clasificarse en

contornos de ‘roof’ o contornos de ‘no-roof’. Los contornos ‘roof’ corresponden a extremos locales y

tienen el más alto o más bajo valor de profundidad en cada cara, y dónde se encuentran o un máximo o

un mínimo, respectivamente. Mientras que los contornos ‘no-roof’ están caracterizados por

discontinuidades en superficies normales con valores más bajos en una cara y valores más altos en la

otra. (Figura 3-12). En la práctica la distinción entre ‘roof’ y ‘n-roof’ sólo depende del punto de vista

del observador.

Figura 3-12: Tipos de contornos.

Por otro lado los contornos de pliegue pueden ser cóncavos o convexos. Son cóncavos cuando

el punto de encuentro de ambas caras corresponde con un mínimo local, y es convexo cuando

corresponde con un máximo local. La convexidad o concavidad es invariante al punto de vista de

observación y representa una propiedad intrínseca del objeto. De ahí, que es más adecuado clasificar

los contornos pliegue únicamente como cóncavos o convexos.

z

x

z

x

z

x

z

x

‘roof’ ‘no-roof’


- 59 -

Anteriormente, se había definido los contornos de salto como discontinuidades en los valores

de profundidad. Jiang [Jiang-1998a] llegó a la conclusión que los contornos de salto no se podían

definir adecuadamente de este modo. Comentó que dos píxeles adyacentes pertenecientes a la

superficie muy inclinada de un objeto, frecuentemente, tiene valores de profundidad muy distintos. Por

lo tanto una simple umbralización de discontinuidades no siempre trabaja bien para la detección de

contornos de salto. De ahí, que con sus averiguaciones redefinió los tipos de contorno que se podían

segmentar

Figura 3-13: Segmentación mediante un algoritmo basado en la técnica de contornos.

Alternativamente, y en muchos casos, se tiende a combinar ambas técnicas. Generalmente, se

suele emplear primero una segmentación basada en contornos. De este modo, se parte de un mapa de

contornos que permite proporcionar una presegmentación que posteriormente es refinada mediante

técnicas de segmentación de contornos. Posteriormente, la información de contornos puede ser además

incorporada al algoritmo de segmentación de regiones, para obtener una extracción de regiones más

robusta [Jiang-1998b].

3.3. Los espacios de color en los procesos de segmentación

Gran parte de los procesos de detección requieren de etapas de segmentación que permitan

discernir o separar unas partes de la imagen de otras. De este modo, se consigue separar las partes o

píxeles de la imagen que representan parte de un objeto y parte de otro. Esta etapa de procesamiento

tiene como base matemática la forma en que se regula el proceso de registro de la imagen. En general,

este proceso depende de las características que definen la luz que ilumina la escena. Por lo tanto,

muchas veces es importante y otras muchas imprescindible, el color.


- 60 -

El color se compone de aquellas características de la luz distintas al espacio tiempo, siendo la

luz aquel aspecto de la energía radiante que el hombre percibe a través de las sensaciones visuales

que se producen por el estimulo de la retina (Optical Society of America)

Las características de la luz que definen el color son el brillo, el matiz y la saturación. El brillo

determina el flujo luminoso, es decir la cantidad de luz. El matiz se define a partir de la longitud de

onda dominante, y la saturación determina la pureza.

La CIE (Comission Internacional de L’Eclairage) en 1931 estableció un sistema de medición

del color basado en la teoría de ‘tristimulus’. El sistema de medición de la CIE se ha tomado como

estándar para representar un diagrama que trata de recoger cualquier color capaz de percibir el ojo

humano. La cromaticidad, es decir, el nivel de color percibido por el ojo depende solamente de dos

características de la luz, matiz y saturación. Por lo tanto, es independiente de la intensidad de luz. El

ojo humano es capaz de percibir para el color rojo longitudes de onda entorno a los 700nm, 546.1nm

para el verde y 435.8nm para el azul.

Generalmente, en visión artificial la mayoría de los colores que definen el espectro visible se

pueden definir mediante las mezclas aditivas de tres componentes. Estos tres componentes pueden

mezclarse de un modo lineal o no lineal, y el modo en el que se realiza la mezcla define lo que se

conoce como espacios de color. Los espacios de color están ampliamente tratados en la literatura sobre

colorimetría [Palus-1998]. Y estos se pueden clasificar en los que están orientados a los dispositivos y

los que están orientados al tratamiento por parte del usuario. Los primeros hacen especial mención en

cómo se registra la información de color de la luz en un dispositivo como una cámara CCD (RGB) o

que tratamiento se hace por parte de los dispositivos de impresión para obtener el color (espacio

CMY-CMYK,YIQ). Los segundos hacen referencia a cómo el usuario busca una mejor representación

para facilitar tareas de procesamiento de la información registrada en la imagen (HSV y sus variantes,

CIE y sus variantes). Mientras que el espacio RGB tiene una distribución lineal, los espacios de

procesamiento como el HSV y sus variantes tienen una distribución no-lineal de sus tres componentes.

De entre todos ellos, se van a destacar dos espacios de color, el RGB y el HSV y sus variantes.

Por un lado, el espacio lineal RGB por ser el espacio de color más extendido y el que utilizan la gran

mayoría de cámaras de video y fotográficas para construir una imagen de color. Y de ahí su

importancia en visión artificial, ya que trabajar con el mismo espacio de color con el que trabaja la

cámara con la que se capturan las imágenes permite evitar la alteración de las propiedades del color

durante el proceso de segmentación, propia de los errores de conversión y transformación, y por otro

lado de este modo se consigue una mayor velocidad de segmentación por ahorro de esas operaciones

de conversión y redondeo. Por otro lado, el espacio no lineal HSV, es interesante porque representa

uno de los espacios de coordenadas más clásicos e intuitivos existentes en la literatura, capaz de

obtener una representación del color a partir de las tres características de la luz que definen el color.


- 61 -

3.3.1. El espacio de color RGB

El espacio de color RGB está definido por ),,()','( BGRyxC = . Dónde R, G y B es el conjunto

de valores que definen el color. Y ese conjunto de valores se determina en función de )(λr , )(λg y

)(λb que son las funciones que representan la respuesta espectral del sensor en función de la longitud

de onda de la luz en cada instante de tiempo y para cada celda fotorreceptora.

∫ ∫ ⋅⋅⋅=

∫ ∫ ⋅⋅⋅=

∫ ∫ ⋅⋅⋅=

t A

t A

t A

dtdbtyxEB

dtdgtyxEG

dtdrtyxER

λλλ

λλλ

λλλ

)(),,','(

)(),,','(

)(),,','(

(3.30)

El rojo está determinado por la sensibilidad de los fotorreceptores del sensor a las bajas

frecuencias, el verde a las frecuencias medias y el azul a las altas frecuencias. En función de cómo se

interpreten la recepción de las frecuencias electromagnéticas en el fotorreceptor se produce un nivel de

componente de color (Figura 3-14).

Figura 3-14: Respuesta espectral de un sensor CCD basado en RGB.

El espacio RGB se representa como un cubo donde un color viene definido por la mezcla de

valores de intensidad de tres colores primarios, rojo, verde y azul (Figura 3-15). Un color viene

descrito por una tupla de 3-coordenadas en el cubo. El color negro se representa por (r=0,g=0,b=0) y

el color blanco por (r=255,g=255, b=255). La gama acromática de escala de grises está representada

por la diagonal del cubo.

El otro espacio de color lineal más conocido es el CYM que se puede definir como el espacio

de color complementario del RGB. Y se puede calcular como,

Longitudes de onda [nm]

Fluj

o ra

dien

te d

e es

timul

o de

ene

rgía


- 62 -

BYGMRC

−=−=−=

255255

255 (3.31)

donde la cromaticidad viene definida por la mezcla de valores de intensidad de tres colores

secundarios, cyan, magenta y amarillo.

Figura 3-15: Representación del espacio RGB y CMY.

3.3.2. Los espacios de color HSV y HLS

En los últimos años, los espacios de color basados en coordenadas polares se han extendido

considerablemente en los sistemas de procesamiento de imagen y detección. Estos espacios de color

presentan ciertas ventajas frente al RGB, ya que se asemejan al modo en que el ser humano intuye los

colores y es capaz de separar valores cromáticos de los que no lo son. Su interpretación geométrica

viene determinada por un cono de base quasi-hexagonal [Smith-1978]. Con esta representación del

espacio de color, cada color trabaja con 3 componentes básicas: matiz, saturación y brillo (Figura 3-

16). El matiz, hHSV, hace referencia al valor de cromaticidad o clase de color. La saturación, sHSV, se

refiere a las longitudes de onda que se suman a la frecuencia del color, y determina la cantidad de

blanco que contiene un color. Cuanto menos saturado esté un color más cantidad de blanco, y cuanto

más saturado esté un color menor cantidad de blanco. En definitiva, la saturación representa la pureza

e intensidad de un color. Así, la falta de saturación viene dada por la generatriz en la representación

del cono HSV. Esa falta de saturación representa la gama de grises desde el blanco hasta el negro. La

luminancia, vHSV, se corresponde con la apreciación subjetiva de claridad y oscuridad.

Amarillo

Rojo

Verde

Cian

Magenta

Azul

Blanco

Amarillo

Rojo

Verde

Cian

Magenta

Azul

Blanco


- 63 -

Cuando se quiere representar una imagen en color con un espacio de color HSV, es importante

determinar como influyen las componentes de color de una cámara de video RGB sobre el espacio

HSV. Así, el sistema HSV viene definido por:

Figura 3-16: Representación del espacio HSV.

),,( max ),,( max

),,( min),,( max

),,( maxb si 4),,( min),,( max

),,( max si 2),,( min),,( max

),,( max si ),,( min),,( max

bgrHSVvbgr

bgrbgrHSVs

bgrbgrbgr

gr

bgrgbgrbgr

rb

bgrrbgrbgr

bg

HSVh

=

−=

⎪⎪⎪⎪

⎩

⎪⎪⎪⎪

⎨

⎧

=+−−

=+−−

=−−

=

(3.32)

(3.33)

(3.34)

Existen muchas variantes de espacios de color intuitivos, en función de cómo se modifique su

representatividad, cabe destacar los espacios HSV, HLS, y las variantes de éste último según su forma

de construirlo [Ortiz-2002][Angulo-2003]. El espacio de color HSV representa mejor que HLS la

saturación, aunque tiene peor representación de la luminancia. El HLS viene a representarse como un

doble cono donde los vértices determinan la máxima y mínima luminancia, o bien como un cilindro

como el que se indica a continuación:

Amarillo

Rojo

Verde

Cian

Magenta Azul

Saturación

Luminancia

Matiz


- 64 -

⎪⎪⎩

⎪⎪⎨

⎧

>+−

−

≤+−

=

+=

⎪⎪⎪⎪

⎩

⎪⎪⎪⎪

⎨

⎧

=+−−

=+−−

=−−

=

5.0l si),,( min),,( max2

),,( min),,( max

5.0l si ),,( min),,( max),,( min),,( max

2),,( min),,( maxl

),,( maxb si 4),,( min),,( max

),,( max si 2),,( min),,( max

),,( max si ),,( min),,( max

bgrbgrbgrbgrbgrbgrbgrbgr

HLSs

bgrbgrHLS

bgrbgrbgr

gr

bgrgbgrbgr

rb

bgrrbgrbgr

bg

HLSh

(3.35)

(3.36)

(3.37)

3.3.3. Variantes de los espacios HSV y HLS: Los espacios alternativos LSM

Los espacios LSM, son espacios de representación del color en coordenadas polares del tipo

luminancia/saturación/matiz que mejoran los sistemas HLS y HSV, a partir de los cuales es posible

derivar histogramas bivariables, es decir capaces de tratar conjuntamente dos componentes. Este tipo

de espacios, derivan de los estudios de J. Serra [Serra-2002] quien determinó que en muchos casos las

representaciones genéricas HLS y HSV no son adecuadas para el tratamiento cuantitativo de

imágenes. Por un lado, porque se necesita proporcionar independencia entre las componentes

cromáticas y acromáticas y por otro lado, porque cualquier punto del espacio imagen a la hora de

representarse en un espacio de color necesita estar basado en parámetros de distancia o norma. En

definitiva, un espacio alternativo LSM, podría catalogarse como un espacio del tipo HLS o HSV al

que se le ha dotado de un parámetro de distancia o norma que permite definir como varían los puntos

del espacio de representación.

La norma L2 es el parámetro de distancia en el espacio Euclídeo. Así, si se aplica a un espacio

RGB una norma L2, éste habría quedado transformado en un espacio LSM de la siguiente manera.

( )

( ) ( ) ( )[ ]

( )⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

−−−++

−−=

−−+−−+−−=

++=

21222

21222

21222

22 arccos

22223s

31

gbrbrgbgr

bgr

LSMh

rgbrbgbgrLSM

bgrLSMm

(3.38)

(3.39)

(3.40)


- 65 -

Sin embargo, en la práctica el espacio LSM con norma L2 es difícil de calcular.

Principalmente, esto es debido a la pérdida de información por redondeo debido a los decimales

obtenidos con el cálculo de las raíces cuadradas no exactas, y por lo tanto a la dificultad de codificar

después el valor numérico como un byte de enteros no negativos, para ser representado como imagen.

De ahí que en la práctica, el espacio LSM emplee la norma L1, en vez de la norma L2, simplificando su

obtención a partir del espacio RGB al cálculo de:

( )

( )

( )

⎥⎦

⎤⎢⎣

⎡

⋅⋅++

⋅−−+=

⎪⎩

⎪⎨

⎧

<−⋅

≥+⋅=

++=

LSM

LSMLSM

LSMLSM

sbgrmedianabgrbgr

LSMh

bgrmedianambgrm

bgrmedianammbgrLSM

bgrmedianabgrbgrLSMm

2),,( 2),,( min),,( max)1(

21

3

),,( si ),,( min23

),,( si ),,( max23

s

),,( ),,( min),,( max31

λλπ

(3.41)

(3.42)

(3.43)

Si se tiene en cuenta que el matiz se aproxima como quasi un hexágono, el parámetro λ

adquiere los siguientes valores:

gbgrrgrbrbgr

>≥=≥>=>≥=≥>=>≥=≥>=

r si 5b si 4b si 3

bg si 2g si 1 si 0

λλλλλλ

(3.44)

siendo λ, la separación en sectores o lados de la base quasi-hexagonal.

3.4. Los histogramas

Históricamente, es la herramienta más empleada como base, en una gran cantidad de técnicas

de procesamiento de imagen. Especialmente ha sido empleada en muchas de las técnicas de

segmentación para la detección y separación de regiones en una imagen, como se ha comentado en el

Apartado 3.1.1. El histograma no es más que una representación de la distribución de los píxeles de

una imagen según una serie de características. El más común de los histogramas es el histograma uni-

dimensional de una imagen en escala de grises, en el cual se representa la distribución de los píxeles

de la imagen según su valor de luminancia.

El histograma de una imagen digital con niveles de gris en el rango [0, 255] es una función

discreta


- 66 -

∑⋅

==

255

0)(

k

k

mnn

IH (3.45)

donde kn es número de veces que aparece el valor de luminancia k-ésimo en la imagen I de

tamaño n·m. El histograma fue la base de los métodos de segmentación presentados en el Apartado

3.1.1.

Comentando, más en detalle, el histograma de una imagen como una herramienta de

procesamiento, se puede afirmar que este tipo de histogramas permiten obtener información objetiva

acerca de la calidad de la imagen, aunque sin proporcionar información específica sobre el contenido

de la imagen. Así, un histograma con valores muy dentados, denotan ruido y falta de calidad. Esa falta

de transición suave entre la cantidad de píxeles que tienen un valor de luminancia y la cantidad de

píxeles que tienen un valor de luminancia adyacente o próximo se debe a ruido en el registro de la

información, en el tipo de ecualizado o en el número de bits empleados en la codificación 8, 16, 32,

etc., principalmente. Además, un histograma uni-dimensional, permite determinar si existe

subexposición o sobreexposición. Para ello, basta fijarse en como se distribuyen los píxeles. Si el

mayor número de píxeles se acumulan a la izquierda de la representación del histograma se está

produciendo una subexposición, si es al lado derecho lo que ocurre es una sobreexposición. Esto

permite determinar si la óptica de la cámara está recibiendo luz por defecto o exceso, y tratar de

corregir las zonas de excesiva oscuridad o excesiva claridad, como son las producidas por sombras y

brillos.

La principal transformación que se puede hacer de un histograma uni-dimensional para

mejorar la calidad de una imagen es la de manipulación para la mejora del contraste. Se busca que la

iluminación sea uniforme y muchas veces esto no es posible, y por tanto aparecen brillos y sombras en

la imagen. Y además se requiere que la ganancia del sensor con el que se adquiere la imagen sea

lineal, y esto tampoco es cierto. A veces a partir de un cierto valor de iluminación el sensor se satura

produciendo la sobreexposición y a veces no existe la suficiente iluminación para que el sensor se

excite adecuadamente.

Hay técnicas tan diversas para la mejora del contraste como las basadas en Min-Max. En esta

técnica se calcula el valor de luminancia mínimo y máximo de la imagen original. Sobre estos valores

se aplica una transformación lineal donde la base de la recta está localizada en el valor mínimo y el

otro extremo de la recta, en el valor máximo. De este modo no habrá pérdida de información, todos los

valores de luminancia continuarán con el mismo número de píxeles que tenían.

En las técnicas que se emplea una transformación lineal, la función de transferencia es una

recta y sólo son controlados dos parámetros, la inclinación de la recta y el punto de intersección con el


- 67 -

eje de abscisas. La inclinación controla la cantidad de aumento de contraste y el punto de intersección

con el eje de abcisas controla la intensidad media de la imagen final.

Figura 3-17: Ajustes de ecualizado de histograma.

También destacan las transformaciones de potencia (cuadradas, cúbicas, raíz cuadrada etc.) y

las logarítmicas. Así, las transformaciones de potencia han sido empleadas a menudo para aumentar el

contraste de los rasgos claros, niveles de luminancia altos en la imagen. Y las logarítmicas para

aumentar el contraste de los rasgos oscuros, niveles de luminancia bajos. Entre otras muchas, también

cabe mencionar pequeñas mejoras respecto a las comentadas anteriormente como son: la ecualización

en un intervalo cuya operación estriba en realzar los píxeles cuyos valores de luminancia se sitúan

entre un mínimo y máximo específicos. O las operaciones de ecualizado destinadas a reducir el

contraste en las zonas muy claras o muy oscuras de una imagen, expandiendo los valores de

luminancia a lo largo del intervalo de posibles valores.

Modificaciones de todas y cada una de estas operaciones han sido aplicadas directa o

indirectamente combinadas con otros métodos en la detección de regiones. Así, a través de la

metodología de histograma de color normalizado se han detectado píxeles que son parte de la cara

buscando discernir el color o tonalidad de la piel, ya que esta consta de una saturación y matiz muy

particulares e independientemente de la intensidad que depende de la dirección de iluminación

[Schiele-1995]. Otras aplicaciones del histograma han estado relacionadas con la clasificación de

imágenes de objetos similares, mediante las características del histograma [Siggelkow-2002][Jeong-

2001].

Alto contraste Bajo contraste Enfatizar sombras Enfatizar brillos

Reducir brillos Reducir sombras Oscurecer Iluminar


- 68 -

3.4.1. Histogramas de color

En visión artificial en los últimos años se está empezando a emplear cámaras de color

buscando poder extraer mayor conjunto de características que permitan mejorar las técnicas de

detección de objetos. El empleo de estas cámaras y el registro de la información de color obligo a

introducir un nuevo concepto de histograma, conocido en la literatura como histograma de color o

también histograma RGB (Figura 3-18), debido al espacio de color que emplean casi todas las cámaras

en ámbitos industriales y científicos, bien basadas en 1 o 3 CCD. Aunque los histogramas RGB o

histogramas de color son los más empleados en el tratamiento de imágenes en color hay otros que

pueden ser más útiles para tratamientos específicos. Así, los histogramas uni-dimensionales siguen

siendo más adecuados para mostrar la información de luminosidad y brillo en la imagen. Los

histogramas de color empezaron a emplearse a principios de los 90, gracias a los trabajos de Michael

Swain y Dana Ballard [Swain-1991]. Un histograma de color no es más que el conjunto de los

histogramas unidimensionales de cada canal tomando la distribución de intensidades de cada color. El

histograma de color denota la unión de probabilidades de intensidad de los tres canales de color.

[ ]bgbgrRGB IBIGNIIIH ===⋅= ,,IR Prob),,( r (3.46)

Y se calcula discretizando los colores que componen la imagen y contando el número de

píxeles de cada color en función de su intensidad. Generalmente, si se tratase de transformar una

imagen de color a una imagen de grises, el 33% de la luminosidad lo aportaría el color rojo, el 33% el

canal verde y sólo el 33% el canal azul. Sin embargo, para forma una imagen en color mediante el

empleo de la retina en vez de un CCD, el 59% de la luminosidad lo aportaría el color rojo, el 30% el

canal verde y sólo el 11% el canal azul.

Figura 3-18: Histograma de color para cada canal RGB.

Estos histogramas han sido empleados a lo largo del Apartado 4.1.1 como base en los métodos

de segmentación presentados en el Capítulo 4.


- 69 -

3.4.2. Histogramas bidimensionales

Además, de los histogramas propios de color vinculados al espacio de color RGB, en los

últimos años han proliferado el uso de otro tipo de histogramas conocidos como histogramas

bidimensionales. Estos histogramas tienen su origen en la relación existente entre algunas de las tres

componentes de los espacios polares de color como son el HSV, HLS y sus variantes [Palus-

1998][Plataniotis-2000]. Cabe destacar tres histogramas bidimensionales, el histograma V/S, el

histograma L/S dependiendo el espacio polar que se emplee como base, así como el histograma H/S.

Los histogramas bidimensionales V/S (en el espacio HSV) y L/S (en el espacio HLS) son

histogramas de dos variables cartesianas, luminancias y saturaciones. Sus representaciones determinan

para cada coordenada, el conjunto de píxeles que tienen un valor de luminancia o brillo, y un valor de

saturación determinado. Ese conjunto de píxeles se representan gráficamente como un valor de gris,

donde a mayor número de píxeles mayor es el valor de gris y a menor número de píxeles menor es el

valor de gris.

Así, el histograma LSH se puede construir como:

∑ ∑⋅

== =

255

0

255

0

),( )(l s

slLS mn

nIH (3.47)

donde ),( sln es el número de veces que aparece la ocurrencia del par (l,s) y dónde l pertenece

al rango [0, 255] siendo éste un valor concreto de luminancia, y s pertenece al rango [0, 255] siendo

éste un valor concreto de saturación en una imagen I de tamaño n·m. Del mismo modo, el histograma

bidimensional VSH se puede construir como:

∑ ∑⋅

== =

255

0

255

0

),( )(l s

svVS mn

nIH (3.48)

donde ),( svn es el número de veces que aparece la ocurrencia del par (v,s) y dónde v pertenece

al rango [0, 255] siendo éste un valor concreto de luminancia, y s pertenece al rango [0, 255] siendo

éste un valor concreto de saturación en una imagen I de tamaño n·m.

Como el objetivo es procesar información procedente de estos histogramas V/S y L/S, éstos

suelen representarse de manera normalizada como dos imágenes en escala de grises con rango [0,

255].

Tanto el histograma LSH como el histograma VSH se representan como una imagen de grises,

con la luminancia en la dimensión horizontal y la saturación en la vertical, dónde el origen

corresponde con el vértice inferior izquierdo del espacio de color.


- 70 -

Y su representación gráfica será:

Figura 3-19: Histogramas bidimensionales L/S y V/S.

La evaluación de un histograma L/S o V/S (Figura 3-19) y la fijación de umbrales sobre él,

permiten conseguir la detección de zonas de reflejo y brillos, así como la detección de distintos grados

de sombras [Angulo-2003][Ortiz-2005a][Ortiz-2005b].

Además de los histogramas que relacionan valores de luminancia y valores de saturación

conviene comentar otro histograma bidimensional, el histograma H/S. Este otro histograma relaciona

valores de matiz con valores saturación en la imagen. La finalidad de estos histogramas radica en que

proporcionan un mecanismo sencillo e intuitivo para separar la información cromática de la

acromática (Figura 3-20.a).

El histograma HSH se puede construir como:

∑ ∑⋅

== =

º360

0

255

0

),( )(h s

shHS mn

nIH (3.49)

donde ),( shn es número de veces que aparece la ocurrencia del par (h,s) y dónde h pertenece al

rango [0, 360º] siendo éste un valor concreto de matiz, y s pertenece al rango [0, 255] siendo éste un

valor concreto de saturación en una imagen I de tamaño n·m.

Además, el histograma HSH se representa como una imagen de grises cuyo origen es el píxel

(127,127), empleando el tono como magnitud angular y la saturación como magnitud radial (Figura 3-

20.a).

Matemáticamente los histogramas L/S y H/S se pueden poner como:

255))(log(

)log(⋅=

LS

LSLS Hmáx

HI (3.50)

255))(log(

)log(⋅=

HS

HSHS Hmáx

HI (3.51)

ss

vl


- 71 -

Como se vio anteriormente, en las representaciones en coordenadas polares HLS y HSV, las

componentes de matiz y saturación contienen toda la información cromática. Así cada uno de los

píxeles en una imagen vendrá definido por tres componentes, dónde dos de ellas, matiz y saturación

definen el color. El primero de ellos proporciona el tipo o clase de color y el segundo proporciona la

cromaticidad o pureza del color. Así, un mismo píxel con valores idénticos de matiz y valores distintos

de saturación, hacen que el píxel adquiera una clase de color definido por el matiz más oscuro o

apagado, o más claro o vivo. Esto hace que cuando la naturaleza del píxel determine un valor de la

componente de saturación pequeña, el píxel pierde cromaticidad, adquiriendo valores grisáceos según

el valor de la componente de luminancia. De ahí, que se pueda definir un método de segmentación que

permita separar los valores cromáticos de los valores no acromáticos, o como se diría vulgarmente los

píxeles de color de los píxeles grises, simplemente definiendo un umbral adecuado de saturación que

divida el espacio HS extraído de la representación HLS o HSV.

Otros autores como comenta Angulo [Angulo-2003] piensan que es más lógico emplear el

espacio LS, extraído de la representación HLS, y dividirlo en seis regiones (Figura 3-20.b), que se

denominan acromática de negros, acromática de grises, acromática de blancos, cromática oscura,

cromática media y cromática clara. Y para hacer este tipo de división del espacio L/S serían necesarios

al menos dos umbrales de luminancia, además del umbral de saturación. Y otros investigadores

[Androutsos-1999] dividen ese mismo espacio L/S en cuatro regiones, negros, blancos, cromática

clara y cromática media.

La obtención del espacio H/S en una representación HLS se obtiene cortando el doble cono,

por un plano cuyo eje es ortogonal a la generatriz. Dicho plano viene definido por un valor de

luminancia de 128 y un valor de saturación máxima, es decir 255, en el caso del espacio H/S. Y para

obtener el espacio L/S habría que cortar el doble cono por un plano cuyo eje coincide con la generatriz

de éste. En este caso, el plano vendrá definido por un valor arbitrario de matiz.

Figura 3-20: División del espacio H/S y L/S en 2, 4 y 6 regiones respectivamente.

s

l ul1 ul2

us

s

h

us

a) b)


- 72 -

En muchos trabajos de inicios de los 2000, se ha buscado segmentar imágenes a partir de

separar la información acromática de la cromática, analizar esta información por separado, y

posteriormente combinar las particiones o regiones obtenidas en cada caso. Las primeras ideas sobre

segmentar por separado y fusionar los resultados de ambas segmentaciones se realizaron por parte de

Kurugollu [Kurugollu-2001], estos trabajos basaban sus estudios en la representación del espacio RGB

y más tarde Angulo [Angulo-2003] emplea ideas similares aplicadas a la segmentación color mediante

morfología basada en espacios LSM.

En esta Tesis doctoral se hace uso de los histogramas bidimensionales, en concreto los V/S,

como parte del procesamiento empleado por los métodos de segmentación expuestos en los Apartados

4.1 y 4.2, dónde se comentan algunas de las aportaciones fruto de esta Tesis

En este capítulo se describe un método de detección de zonas de oclusión en imagen. Este método permite identificar en la imagen aquellas regiones candidatas dónde un objeto puede ocluir parte de otro. Para la implementación de éste método se han combinado técnicas de segmentación basadas en espacios de color y luz estructurada.

4.1. Procesamiento de la imagen y estrategias adoptadas

Para tratar de discernir unos objetos de otros sin disponer de un conocimiento previo de la

escena se ha empleado un proceso de detección de regiones basado en técnicas de segmentación. De

entre todas las técnicas presentadas en el capítulo 3, se han escogido las técnicas basadas en

histograma y umbralización, porque se encuentran ampliamente comentadas en la literatura existente,

porque permiten fácilmente extrapolarse a imágenes en color, y además se han empleado de modo

eficiente en secuencias de video en tiempo real, seguimiento de objetos o ‘tracking’, etc.

La segmentación que se ha propuesto está basada en la detección de umbrales a partir de

mapas de componente de color de esos espacios de color [Gil-2004][Gil-2005a]. En entornos

robóticos, el proceso de umbralización puede ser en muchos casos una tarea compleja debido a la falta

de conocimiento previo. Esto hace, que problemas como la dificultad de saber el número de

componentes que componen el objeto u objetos, el efecto de sombras no deseadas y brillos, la

composición de los colores más o menos complejos, y las diferentes texturas y tamaños de los objetos

así como el solapamiento entre componentes de un objeto, junto a otras muchas situaciones pueden

complicar este proceso.

De ahí que, en este tipo de técnicas de detección de regiones sea muy importante la elección

de un número adecuado de umbrales. Un número pequeño de umbrales causará subsegmentación, y

consecuentemente se detectarán menos regiones de las deseadas, y por lo tanto menos componentes de

un objeto o menos objetos. Y por otro lado, el empleo de un número elevado de umbrales fuerza una

sobresegmentación, la cual origina más regiones de las que pueden ser de nuestro interés. Las dos

razones fundamentales que pueden facilitar el hecho de que se provoque un problema de estos dos

tipos, sobresegmentación o subsegmentación, son principalmente:

• La presencia de sombras y brillos.

• La similitud de color entre objetos o entre componentes que componen un mismo

objeto.

Para paliar y tratar de subsanar o reducir el efecto de estos dos problemas, se incorporarán

herramientas adicionales al proceso de segmentación basados en la combinación de varios espacios de

color (ver Apartado 3.3) [Palus-1998] y el empleo de histogramas bidimensionales (ver Apartado 3.4)

[Ángulo-2003][Ortiz-2004b][Ortiz-2005a].

Capítulo 4. Detección de oclusiones

-76 -

4.1.1. Detección de regiones de objetos solapados

La detección de regiones empleada se basa principalmente en un proceso de segmentación

multiumbral que emplea de manera combinada varios espacios de color, e histogramas

bidimensionales para reducir el efecto de sombras y brillos en algunos casos [Ortiz-2004a][Ortiz-

2004b][Ortiz-2005a][Ortiz-2005b].

Los dos espacios de color empleados son RGB y HSV. El primero de ellos, porque es el que se

emplea para representar la imagen de video capturada, y el segundo de ellos porque permite discretizar

la información propia de color (matiz), de la información que puede causar problemas como son los

valores de luminancia altos (brillos) o bajos (sombras).

Así, se parte de una imagen en color representada en RGB, se analiza el histograma de cada

una de las tres componentes de color. Y mediante el método de Otsu [Otsu-1979], que se basa en

distribuciones Gaussianas y que se comentó en el Apartado 3.1.1.5, se selecciona un conjunto de

umbrales. Los umbrales se usan para dividir los píxeles de la imagen en varias regiones o clusters que

serán denotadas con el nombre de regiones-clase. Aunque el número de umbrales seleccionados para

segmentar la imagen puede ser variable, empíricamente se ha determinado un mínimo número de

umbrales de 1 y un máximo de 3 para cada componente de color. La elección de este rango de mínimo

y máximo de umbrales se ha fijado así por dos razones. La primera de ellas es que al menos hace falta

un mínimo de un umbral para separar un objeto del fondo en cada una de las componentes de color. Y

la segunda razón radica en que con 3 umbrales por componente se pueden obtener hasta 64 posibles

regiones-clase, y 64 regiones se consideran suficientes para dividir una imagen de una escena.

De este modo, el número de regiones-clase diferentes que pueden ser determinadas se denotan

como:

( )∏ +==

nc

kknunC

11 (4.1)

donde nc indica el número etiqueta de cada componente del espacio de color. Para cada

imagen en color, habrá siempre 3 etiquetas. Así para el espacio RGB las tres etiquetas corresponden a

las componentes básicas: rojo, verde y azul; y para el espacio HSV, corresponden al matiz, saturación

y luminancia o intensidad. El parámetro, knu , determina el número de umbrales detectados para cada

componente y que siempre estará dentro del rango [1,3].

La metodología empleada para obtener esos umbrales se basa en una variación del método

convencional de Otsu, y que está basada en los conceptos de varianza de una clase y varianza entre

clases. Siendo cada clase la representación de la región para una distribución Gaussiana. El nivel de

segmentación viene determinado por el número de umbrales empleados. El número de umbrales


-77-

determinará la precisión en el nivel de detalle de la segmentación. El número de umbrales puede

determinarse manualmente, o calcularse de modo automático recursivamente [Cheriet-1998]. El

método recursivo permite segmentar sin restringir la búsqueda a un número determinado de objetos o

componentes en la imagen, como ocurre en [Yingzi-2004].

La multiumbralización empleada permite discriminar píxeles por división de la imagen

original en varias regiones-clase, tales como:

{ } { } { }1,...,,...,,...,1,,..,1 2111 −=+= LuCuuCuC nnO (4.2)

donde L representa el máximo valor de luminancia o intensidad de brillo en la imagen, y

donde cada región-clase agrupa todos los píxeles de valor similar de cada componente del espacio de

color. El conjunto de los umbrales detectados se denota por: { }nuuuU ,...,, 21= . Son éstos los que

dividirán el conjunto de píxeles de la imagen original en regiones-clase. La forma en que el método de

Otsu escoge los umbrales óptimos U , es mediante un proceso de división en clusters, tal que la

varianza entre regiones-clase, 2σ , se haga máxima, { }2

...1maxarg

21

σLuuu n

U<<<<≤

= ; es decir:

( )∑ −==

n

kTkk

1

22 μμωσ (4.3)

donde

kCi

ikk

pi ωμ /∑ ⋅=∈

(4.4)

∑=∑=∑=−

==∈ +

1

11

1

1,..., ,

L

uiin

u

ii

Ciik

nk

ppp ωωω (4.5)

∑ ⋅=∑=−

=∈

1

1

L

ii

CikT pi

k

μμ (4.6)

Siendo, Kμ , la media de la componente del espacio evaluada, para cada región-clase, KC ;

Kω , la probabilidad de que un píxel pertenezca a la región-clase, KC ; Tμ , la media para la imagen

original completa, y ip los píxeles con valor de componente de color i .

4.1.1.1. Segmentación RGB

La segmentación de una imagen RGB se realiza segmentando individualmente cada una de las

tres componentes de color de las que consta la imagen. Así, se aplica el método de Otsu comentando

en el apartado anterior a cada una de las tres componentes de color, previamente suavizadas para

provocar mejoras en el histograma que permitan obtener los umbrales con un mayor éxito (Figura 4-

1). Se obtendrán, por lo tanto tres conjuntos de umbrales. Y de este modo, el número de regiones-clase

detectadas en la imagen de color vendrá determinada por la ecuación (4.1). Así, ya se dispone de una


-78 -

segmentación de color inicial, donde se asignan valores de intensidad, kijp ,~ , para cada componente, k ,

en función del número de umbrales obtenidos, knu y donde L representa el máximo valor de

luminancia en la imagen.

k

knukij

knkijknk

kkij

kij nun

upsiL

upusinnu

Lupsi

p

k

...1 ,

1

0~

,,

,1,,

,1,

, =

⎪⎪⎩

⎪⎪⎨

⎧

>−

≤<⋅

≤

= + (4.7)

De este modo, si fusionamos cada una de las tres componentes de color de la imagen,

previamente umbralizadas y posteriormente coloreadas de acuerdo al criterio de la ecuación (4.7), cada

píxel segmentado habrá sido codificado como un código { }321 ,, cccC = donde kc puede tomar

únicamente los valores de kijp ,~ . Y cada una de estas posibles codificaciones, determina una posible

región-clase { }nCkkC 1= .

Una vez, se dispone de una imagen previamente segmentada, donde el número de regiones

detectadas vendrá dado por nC , se busca reducir su excesiva segmentación que produce un número de

regiones-clase que en el peor de los casos será de 64 usando 3 umbrales por componente. De este

modo se opta por unir regiones, empleando una técnica de clusterización basada en el concepto de

varianza entre clases de Otsu, y distancia Euclidea. Este proceso está generalizado para un número

indeterminado y desconocido de umbrales, nc .

Un ejemplo detallado del proceso de segmentación multiumbral se muestra a continuación. En

dicho ejemplo se segmentan imágenes de una estructura que forma un montaje con tres piezas

ensambladas. El modelo CAD de dicho montaje de piezas se puede observar en la figura 5-7.a del

Capítulo 5.

Así, inicialmente, se muestra una imagen de cada una de las componentes de color, y de cada

una de las componentes de color previamente suavizadas mediante un proceso de filtrado de mediana

de 7x7 (Figura 4-1). Posteriormente, se calculan el conjunto de umbrales a partir de los histogramas

(Figura 4-2). Los umbrales calculados han sido obtenidos aplicando los criterios del método de Otsu

multiumbral comentado anteriormente, a partir de la maximización de la varianza entre clases y

siempre de acuerdo a las ecuaciones (4.3), (4.4), (4.5) y (4.6) (Figuras 4-3, 4-4 y 4-5).

A continuación se muestra gráficamente y de manera ilustrativa, la aplicación del método para

el cálculo multiumbral a una de las componentes de color mostradas en la figura 4-1. Los umbrales

que se obtienen tras aplicar el método de segmentación de Otsu a cada componente de color se

observan en la figura 4-2. En concreto para la componente roja se extraen los umbrales 118, 46 y 178,

en la primera, segunda y tercera iteración respectivamente.


-79-

Así, en la figura 4-4 se observa como evoluciona la varianza entre umbrales (Ecuación 4.3)

cuando se aplica el proceso de cálculo de umbrales para la componente de color roja. En la primera

iteración del algoritmo de segmentación se muestra como la varianza se hace máxima en U=118

(Figura 4-4.a), quedando dividido el histograma en dos Gaussianas (Figura 4-3.a). En la segunda

iteración (Figura 4-3.b) se vuelve a buscar la máxima varianza que permite dividir en dos Gaussianas

nuevas, una de las dos Gaussianas obtenidas en la figura 4-3.a. En este caso, la máxima varianza

obtenida, que divide el histograma (Figura 4-3.b) en dos nuevas Gaussianas, es U=46 (Figura 4-4.b). Y

de igual modo, en una tercera iteración, se divide la otra Gaussiana obtenida en la figura 4-3.a en otras

dos nuevas Gaussianas (Figura 4-3.c) a partir del umbral U=178 obtenido por la maximización de

varianzas como se indica en la figura 4-4.c.

Figura 4-1: a) Componentes de color RGB. b) Componentes de color suavizadas.

Figura 4-2: Histogramas de las componentes de color RGB segmentadas y detección de umbrales.

a)

b)


-80 -

Figura 4-3: Proceso de distribución de Gaussianas para el cálculo de umbrales en la componente de color rojo. a) Iteración cálculo primer umbral. b) Iteración cálculo del segundo umbral. c) Iteración calculo del tercer

umbral.

a)

33.30218.56

1

1

==

σμ

76.387.181

2

2

==

σμ

Luminancia

Núm

ero

de p

íxel

es

b) Luminancia

Núm

ero

de p

íxel

es

76.10558.1

12

12

==

σμ

28.2496.36

11

11

==

σμ

c) Luminancia

Núm

ero

de p

íxel

es

56.8241.175

22

22

==

σμ

86.4187.172

21

21

==

σμ


-81-

Figura 4-4: Evolución de las varianzas entre umbrales para la componente de color rojo. El umbral se escoge cuando se maximiza la distribución entre clases. a) Primer umbral U=118. b) Segundo umbral U=46. c) Tercer

umbral U=178. d) Comparativa de la evolución de la varianza entre regiones-clases.

Además, en la figura 4-5 se muestra la primera iteración, es decir el cálculo del primer umbral,

para cada una de las componentes de color. En la primera columna de esa figura (Figura 4-5.a) se

muestra la evolución de las medias de las dos Gaussianas en función del valor de luminancia que se

escoge como umbral. En la segunda columna de la figura (Figura 4-5.b) se muestra la evolución del

parámetro de varianza que determina el umbral más adecuado para dividir una Gaussiana en dos

Gaussianas nuevas.

Posteriormente, se calcula en cuánto diverge en valor de intensidad cada uno de los píxeles de

las regiones segmentadas, para determinar en qué medida un píxel puede pertenecer o no a una región.

Para calcular este valor de divergencia o similitud se miden las distancias entre las medias de

intensidad entre un píxel que pertenece a una clase y otro que pertenece a otra (Figura 4-6). Por

ejemplo, en las figura 4-6.a y figura 4-6.b se muestra la función de distancias entre las distintas

regiones-clase segmentadas. En concreto en la figura 4-6.a se muestran las distancias entre regiones-

clase para cada una de las regiones-clase segmentadas sin aplicar ningún proceso de agrupación. En la

Luminancia a) b)

c) d)

Luminancia

Luminancia Luminancia

Var

ianz

a σ

Var

ianz

a σ

Var

ianz

a σ

Var

ianz

a σ


-82 -

figura 4-6.b se muestran las distancias entre regiones-clase atendiendo únicamente al valor de

luminancia obtenido como promedio de las tres componentes de color que componen la imagen

(Figura 4-1). Además, en las figuras 4-6.c se muestran las distancias entre regiones-clase considerando

únicamente los valores de luminancia de cada una de las componentes de color por separado.

Figura 4-5: a) Evolución de las medias para cada paso de detección de umbral. b) Evolución de las varianzas durante la selección de los umbrales.

Luminancia

Luminancia

Luminancia Luminancia

Med

ias

Var

ianz

a

Med

ias

Var

ianz

a

Luminanciaa) b) Luminancia

Med

ias

Var

ianz

a


-83-

Figura 4-6: a) Distancias de valores de luminancia de píxeles entre regiones-clase. b) Distancias promediadas de valores de luminancia de píxeles entre regiones-clase clusterizadas. c) Distancias de valores de luminancia de

píxeles entre regiones-clase clusterizadas por componente de color.

Tanto la figura 4-6.b como las figuras 4-6.c muestran las distancias entre regiones-clase

después de haber realizado un proceso de clusterizado para agrupar regiones cercanas en valores de

luminancia.

a) b)

c)

Regiones etiquetadas

Dis

tanc

ias p

ara

la c

ompo

nent

e ro

ja [p

íxel

es]


Dis

tanc

ias p

ara

la c

ompo

nent

e ve

rde

[píx

eles

]


Dis

tanc

ias p

ara

la c

ompo

nent

e az

ul [p

íxel

es]


Dis

tanc

ias p

ara

valo

res d

e lu

min

anci

a [p

íxel

es]

Dis

tanc

ias

[píx

eles

]



-84 -

Finalmente, el proceso de clusterizado se lleva a cabo, agrupando los píxeles de regiones

cuyas distancias son las más cortas (Figura 4-6). En la figura 4-7, se observa un gráfico de la

reducción de regiones tras el proceso de clusterizado, así como la fracción de cada componente de

color de la que se compone cada región-clase segmentada y clusterizada. En el proceso de

segmentación se han obtenido 22 regiones que han quedado reducidas a 7 tras someterlas a un proceso

de agrupamiento o clusterizado (Figura 4-7).

Figura 4-7: a) Regiones segmentadas con porcentaje de color por cada componente RGB (64 regiones, únicamente 22 regiones validas). b) Regiones clusterizadas por cada componente de color (7 regiones).

c) d)

Regiones a) b) Regiones clusterizadas

Núm

ero

de p

íxel

es p

or

com

pone

nte

de c

olor

Núm

ero

de p

íxel

es p

or

com

pone

nte

de c

olor

Regiones Regiones clusterizadas

Núm

ero

de p

íxel

es p

or

com

pone

nte

de c

olor

Núm

ero

de p

íxel

es p

or

com

pone

nte

de c

olor


-85-

Figura 4-8: a) Componentes de color RGB segmentadas. b) Composición imagen con componentes de color RGB segmentadas. c) Imagen segmentada con agrupamiento de regiones.

Después agrupar las regiones similares en el proceso de clusterizado, se puede componer la

imagen segmentada y clusterizada con la ecuación 4.7, como así se muestra en la figura 4-8.

Algunos otros ejemplos de segmentación, esta vez aplicados a objetos solapados se pueden

observar a continuación. En la Figura 4-9, en la que se observa la segmentación multi-umbral RGB de

tres objetos opacos, de colores generalmente homogéneos, en los que principalmente destaca la falta

de cromaticidad en algunos de ellos (colores en tonos grisáceos). Si se observa el histograma V/S

(Figura 4-9.b), se comprueban que predominan los tonos apagados (bajas saturaciones).

En la Figura 4-10, se observa la segmentación multiumbral RGB de tres objetos traslucidos,

objetos que provocan brillos, sombras y falta de homogeneidad en el color. Si se observa el histograma

bidimensional V/S (Figura 4-10.b), se puede comprobar la diversidad de saturaciones para diferentes

valores de luminancia. También destacan algunos tonos apagados de baja saturación, que definen

brillos muy marcados. La ventaja del método se observa en la diversidad de tonos de color, incluyendo

acromáticos, los cuáles también es capaz de segmentar. Sin embargo, este tipo de segmentación

provoca que se detecten como objetos regiones de sombras y brillos, que en la imagen segmentada

serán considerados como falsos objetos (Figuras 4-9.c, 4-9.d y 4-10.c 4-10.d).

a)

b) c)


-86 -

Figura 4-9: Segmentación RGB de tres objetos con características opacas.

Figura 4-10: Segmentación RGB de tres objetos con características traslucidas.

a) b)

c) d)

a) b)

c) d)


-87-

4.1.1.2. Segmentación HSV

Otra aproximación para segmentar las imágenes está basada en aplicar el mismo principio y

metodología similar a la aplicada al modelo RGB, pero empleando un modelo más intuitivo como es

el HSV. En este caso, el primer paso requiere la transformación de la imagen capturada para

representarla con un espacio de color HSV. Así, se obtendrán las tres componentes de color (matiz,

saturación y luminancia). Estas tres imágenes ‘monocromáticas’ serán analizadas para hacer la

segmentación mediante división de clusters por el método de Otsu.

La ventaja de una segmentación basada en espacios de color HSV, HLS, o sus variantes,

radica en la posibilidad que hay de analizar la presencia de sombras y brillos. Éstos, en muchos casos,

aumentan la complejidad de la escena dificultando en gran medida la detección de objetos y de sus

componentes a partir de imágenes en color.

Para analizar, este tipo de información (sombras y brillos) se ha empleado el histograma

bidimensional V/S (Figura 4-11). El histograma V/S determina, en función de la distribución de los

valores de saturación y luminancia, a partir de qué valores se debe escoger los umbrales de

segmentación de Otsu más adecuados para no considerar los píxeles de la imagen original que forman

parte de una sombra o de un brillo. Así, siendo el conjunto de umbrales de Otsu, { }nuuuU ,...,, 21= se

determina un parámetro st , en el histograma V/S, que delimita las zonas de baja saturación. Estas

zonas de baja saturación determinan las regiones de la imagen con colores apagados. Y a su vez, las

regiones con colores apagados definen regiones de sombras o de brillos acromáticos.

Figura 4-11: Histogramas bidimensionales V/S para el espacio de color HSV y la relación entre sombras y brillos.

Los píxeles de una región en la imagen con colores apagados pueden tener valor alto de

luminancia y en tal caso, serán considerados píxeles que pueden formar parte de un brillo, o bien

pueden tener valores de luminancia pequeños y en tal caso, son considerados píxeles que pueden

forman parte de una sombra. No obstante pueden aparecer brillos y sombras con colores de intensidad

maxv

max

v

max

sombras

brillos

s Colores puros

v

max

max

0st

Colores apagados

Intensidad media-alta

Intensidad media-baja

ss

0max

0


-88 -

media-alta en la saturación. Éstos pueden ser detectados sobre la generatriz del cono que se forma en

un histograma L/S [Ángulo-2003].

Haciendo una primera aproximación, para detectar objetos de color en una imagen en entornos

robotizados, se ha partido de la suposición que la falta de color en las imágenes adquiridas hace

referencia principalmente a dos situaciones básicas zonas de sombras y zonas de brillos en la imagen;

información que facilita el histograma bidimensional V/S.

Por un lado, interesa enfatizar que, si una componente o un objeto tienen una zona de sombras,

ésta no debe ser considerada como región-clase válida. Esto ha sido considerado de este modo porque

una sombra por si misma no es un objeto ni una componente de un objeto, ni puede considerarse como

tal. Además, por otro lado, un mismo componente u objeto con diferentes zonas de sombras no debe

ser segmentado como diferentes regiones-clase, sino como un único componente u objeto. El espacio

de color HSV proporciona información más simple e intuitiva del nivel de cromaticidad que el espacio

de color RGB. El nivel de cromaticidad se mide a partir de una de las componentes del espacio HSV,

la saturación. Así, una baja saturación define una falta de cromaticidad. Por este motivo, el empleo del

espacio HSV, permite fácilmente identificar las regiones de baja o alta saturación. Siguiendo un

esquema similar al usado en la segmentación RGB, el método implementado consta de las siguientes

fases o etapas:

1. Transformar de RGB a HSV. Separar cada uno de los canales H, S y V y suavizarlos para

eliminar discontinuidades.

2. Detectar los knu umbrales de Otsu para cada componente { }VSHk ,,= .

3. Seleccionar los umbrales más adecuados para la segmentación cromática de entre los

detectados por Otsu haciendo uso del histograma bidimensional V/S.

4. Codificar cada píxel con un código { }321 ,, cccC = , donde kc toma valores de la ecuación

(4.7).

5. A partir de las distintas regiones-clase en las que se ha segmentado, agruparlas buscando

regiones homogéneas para reducir el número de regiones detectadas. Para ello, se aplica,

únicamente, como criterio de clusterización medidas de varianza y de desviación típica

respecto al valor medio de cromaticidad dado por la componente polar de matiz H para cada

región detectada en el paso 4.

6. Colorear las nuevas regiones clusterizadas, buscando asignar como color, la media de valor de

matiz de los píxeles de la imagen original H del paso 2.


-89-

Figura 4-12: Segmentación HSV de tres objetos con características opacas.

Figura 4-13: Segmentación HSV de tres objetos con características traslucidas.

a) b)

c) d)

a) b)

c) d)


-90 -

A continuación, se evalúa el método con los mismos ejemplos mostrados anteriormente. El

método multiumbral HSV mostrado, permite detectar objetos de color sin considerar zonas de sombras

y brillos que al ser acromáticas, generalmente, son desechadas como objetos válidos (Figuras 4-13.c y

4-13.d). A veces, esto puede suponer un inconveniente, ya que un objeto en escala de grises podría no

ser detectado correctamente, al considerarse o bien un brillo o bien una sombra, observar las figuras 4-

12.c y 4-12.d. Además, tiene el inconveniente que trabajar con las componentes desacopladas de HSV,

hace que se pierda la generalidad de la información de color muy útil para la segmentación (Figuras 4-

12.c y 4-12.d).

Si se compara la segmentación HSV de los objetos representados en la Figura 4-13, se observa

que es mucho más precisa que la realizada para los objetos de la Figura 4-12. Una sencilla explicación

se puede llevar a cabo realizando un pequeño análisis de los histogramas V/S (Figuras 4-12.b y 4-

13.b), donde se comprueba que los objetos de la figura 4-12 destacan principalmente por su falta de

saturación, dificultando la segmentación HSV, que viene delimitada por el umbral más pequeño

detectado por Otsu para la componente S, denotado por st , en el histograma V/S de la figura 4-11.

4.1.1.3. Segmentación combinada RGB-HSV

Vistos los problemas que acarrean uno y otro método de segmentación, se ha optado por

probar una combinación de ambos. De modo que inicialmente, se busca detectar los objetos presentes

en la imagen haciendo uso de la segmentación RGB vista en el Apartado 4.1.1.1. Y posteriormente,

haciendo uso de algunas de las informaciones que proporcionan las componentes del espacio de color

HSV de la imagen original, así como del histograma bidimensional V/S, se realiza una post-

segmentación de la imagen segmentada mediante RGB. Así, se busca detectar todos los objetos en la

imagen incluidos los que carecen de cromaticidad y por otro lado, eliminar en la medida de lo posible

los brillos y las sombras, buscando conseguir homogenización de las áreas detectadas. El esquema

general seguido es el mostrado en la figura 4-16. El algoritmo para segmentar mediante el método

RGB-HSV se divide en varias etapas como se indica en la figura 4-16. Los procedimientos que se

implementan en esas etapas se comentan con más detalle en el algoritmo de la tabla 4-1.

Como se puede observar en la figura 4-14, el resultado de combinar ambos espacios de color,

garantiza obtener colores más realistas y no tan arificiales como se obtenían en el modelo HSV,

cuando la clusterización se llevaba a cabo únicamente con la cromaticidad. En el modelo RGB-HSV la

clusterización se lleva a cabo con las tres componentes de color del espacio RGB. De este modo se

proporcionan colores menos sintéticos y más parecidos a los colores de la imagen sin segmentar. Por

otro lado, el usar componentes del espacio HSV para corregir algunas situaciones de iluminación,

brillos de fondo y leves sombreados, permite conseguir segmentaciones más precisas. Además la

combinación de ambos espacios permite mejorar el proceso de clusterización, evitando la fusión de


-91-

regiones no-homogeneas que podía ocurrir en la segmentación multinivel RGB (Figuras 4-12.d y 4-

13.d).

(i) Leer imagen RGB

(ii) Descomponer la imagen en sus tres canales o componentes de color.

(iii) Obtener imagen HSV de acuerdo a la ecuación (3.32)

(iv) Suavizar cada canal o componente de color con un filtro de mediana para las imágenes RGB y HSV.

(v) Detectar umbrales:

• Para cada canal o componente de color:

a. Inicializar una constante, nu , que identifica el número máximo de umbrales a detectar a un valor entre 0 y 7. Generalmente se inicializa a 3.

b. Calcula el histograma normalizado de acuerdo a la ecuación (3.45).

c. Calcula el valor máximo y mínimo del histograma.

d. Desde 0 hasta 255

i. Calcular la media media total Tμ según la ecuación (3.4)

ii. Calcular la varianza total 2σ según la ecuación (3.5)

iii. Definir límite inferior y superior del histograma oL y fL

e. Desde 1 hasta nu repetir

i. Recorrer el histograma entre los límites definidos oL y fL y hacer:

1. Inicializar escogiendo un valor de luminancia del histograma como umbral ku

2. Calcular la evolución de las varianzas para cada una de las dos gaussianas en que ku divide el histograma de acuerdo a la ecuación (4.3)

3. Calcular la varianza entre gaussianas 2σ para ese valor ku , computando las ecuaciones (4.4), (4.5) y (4.6), y

posteriormente: ( )∑ −==

n

kkkkk

1

21010

201 μμωωσ

4. Calcular la varianza total de las dos gaussianas

∑ +==

n

kkkkkT

1

211

200

2 σωσωσ

5. Calcular la relación 2201 / Tn σσ= entre la varianza entre

gaussianas y la varianza total. Si la n obtenida es mayor a la calculada en la iteración anterior se actualiza.

ii. Para el valor de ku que hace máxima la varianza entre gaussianas se almacena la varianza y la media de cada gaussiana.

iii. Para el valor de ku se actualizan los límites definidos para el histograma como: kf uL = 1+= ko uL


-92 -

Además se actualizan los valores mínimo y máximo del histograma para esos límites y se repite el proceso volviendo al paso (e.i) para cada nuevo ku calculado.

(vi) Colorear la imagen umbralizada RGB codificando cada píxel con un código de acuerdo a la ecuación (4.7).

(vii) Construir histograma V/S a partir de la imagen HSV obtenida en (iii) de acuerdo a la ecuación (3.47).

(viii) Ir al paso (v) y aplicar el cálculo de umbrales para la imagen HSV.

(ix) Seleccionar umbrales en el histograma V/S.

a. Situar los umbrales obtenidos para la saturación y la luminancia en el histograma V/S obtenido en (vii).

b. Calcular las distribuciones de píxeles de cada una de las regiones en que queda dividido el histograma V/S al aplicar los umbrales de saturación y luminancia obtenidos en el paso anterior.

c. Reducir el número de umbrales detectados escogiendo únicamente los umbrales de saturación y luminancia que aislan las distribuciones de píxeles que corresponden a valores de saturaciones bajos y a niveles de luminancia muy altos y muy bajos en el histograma V/S.

(x) Colorear la imagen umbralizada HSV codificando cada píxel con un código de acuerdo a la ecuación (4.7) y eliminar las saturaciones e intensidades que están por debajo de los valores escogidos en el paso (ix).

(xi) Clusterizar la imagen HSV agrupando regiones. La agrupación se hace en función de la distancia mínima entre los códigos con los que se ha etiquetado cada píxel en el paso anterior.

(xii) Depurar la imagen RGB obtenida en el paso (vi):

• Identificar los píxeles de fondo calculando el máximo número de veces que se repite un valor por cada componente de la imagen HSV obtenida en el paso (xi).

• Aislar los objetos del fondo en la imagen RGB y colorear los píxeles del fondo con el valor medio de intensidad de cada componente de color.

(xiii) Clusterizar la imagen RGB del paso (xii) agrupando regiones.

a. Un píxel pertenece a una misma clase que otro cuando ambos están etiquetados con el mismo código del paso. El primer paso es obtener las medias de intensidad para cada clase.

b. Calcular la diferencia entre el valor de un píxel y la media de intensidad calculada para cada clase en el paso anterior (xiii.a). Se emplea la distancia Euclídea para calcularla.

c. Calcular las diferencias de medias de intensidad entre todos los píxeles que pertenecen a clases distintas.

d. Calcular la media de todas las distancias obtenidas en el paso (xiii.c) y construir una matriz con las distancias más cortas para cada clase.

e. Fusionar las clases a las que pertenecen las distancias más cortas, asignándoles la misma etiqueta y asegurándose que se cumpla el criterio de máxima varianza entre distancias.

Tabla 4-1: Algoritmo de segmentación correspondiente a las etapas de la figura 4-16.


-93-

Figura 4-14: Segmentación combinada RGB-HSV. a) Objetos segmentados. b) Objetos segmentados y

clusterizados.

Figura 4-15: Vista tridimensional de las segmentaciones realizadas.

En el anexo B.1.1. se ha llevado a cabo una pequeña evaluación comparativa del coste

temporal de ejecución de cada uno de los tres métodos de segmentación implementados, atendiendo al

coste computacional de cada una de las fases o etapas de las que consta cada proceso de segmentación.

a) b)


-94 -

Figura 4-16: Diagrama de procesos en la segmentación combinada RGB-HSV.

4.1.2. Detección de regiones en montajes u objetos ensamblados.

Estos métodos de segmentación, también, han sido empleados en la práctica para detectar

regiones de objetos que están constituidos por más de un componente, y cuya unión de componentes

forman un montaje u objeto ensamblado [Gil-2005a]. En estos casos, la detección de los objetos y de

sus componentes a partir de imágenes en color, en escenarios en los que se requiere una manipulación

por un robot, por ejemplo en tareas de desensamblado, aun es más compleja. Ya que pueden

producirse mayores situaciones de oclusión entre componentes de un mismo objeto, unos objetos

solapan otros, y a su vez estos solapamientos y ensamblados, determinaran una secuencia de

desensamblado [Torres-2004]. Aquí, se muestran dos experimentos sencillos:

Experimento 1: Circuito básico formado por tornillos, cableado de distintas polaridades,

conectores eléctricos donde insertar clavijas, y una placa base sobra la que se monta el circuito.


-95-

Experimento 2: Se trata de dos objetos, uno de ellos formado por un cable de bus IDE con

varios conectores y que a su vez solapa un segundo objeto que prácticamente no deja ver.

A continuación, se muestra el resultado de aplicar las segmentaciones multinivel RGB y HSV,

y la mejora que aporta la segmentación combinada con el empleo de histogramas bidimensionales

V/S. Este método de segmentación combinado constituye una de las principales aportaciones de esta

Tesis. Las mejoras que se experimentan en el proceso de segmentación color con este método han sido

publicadas con éxito [Gil-2004] [Gil-2005a].

Para entender y determinar la mejora que la segmentación combinada aporta, primero se hace

un análisis de cada una de las dos escenas construyendo el histograma V/S para cada experimento

(Figura 4-17).

En el primer caso, predominan una gama de colores de muy diversas saturaciones, desde

colores muy puros, hasta colores con bajas saturaciones que determinan colores apagados o de falta de

cromaticidad.

En el segundo caso, predominan los colores apagados, con saturación baja, lo que indica que

hay una falta de cromaticidad en la imagen, predominando los grises o acromáticos. Si se analizara, el

histograma V/S sin conocer la escena, se podrían suponer dos situaciones: La imagen está tomada en

malas condiciones de iluminación, las sombras y/o los brillos predominan en la imagen de la escena. O

por otro lado, se podría suponer que la imagen está bien tomada, pero predominan los objetos con

colores acromáticos o tonos grisáceos.

Figura 4-17: Histogramas bidimensionales VS para el espacio de color HSV.

Una vez comentado brevemente el análisis del histograma bidimensional V/S, en ambos

experimentos, se comentan los resultados de aplicar varias segmentaciones. Primero, en la figura 4-18,

se muestra el resultado de tomar la imagen del montaje (Figura 4-18.a), y someterla a un proceso de

umbralización para cada una de las tres componentes de color RGB. Se han empleado 3 umbrales por

cada una de las tres componentes. De modo, que se han detectado hasta 4 regiones distintas por

componente (Figura 4-18.b). Si se vuelve a componer la imagen en color RGB a partir de las

max

s

v

max

0

s

v

max

0

s

max

sombras

brillos

s Colores puros

v

max

max

0st

Colores apagados

Intensidad media-alta

Intensidad media-baja


-96 -

umbralizaciones se obtiene una imagen RGB segmentada (Figura 4-18.c). Sin embargo, el resultado

obtenido como se puede observar no es muy bueno, y sigue apareciendo una sobresegmentación en la

imagen segmentada como consecuencia del excesivo número de umbrales empleados, que en este caso

provocan partir la imagen hasta en 64 regiones. Esta sobresegmentación, se produce principalmente,

por los cambios de luminancia en algunos colores, como consecuencia de que la luz no incide de igual

modo sobre cada componente del montaje, aun siendo este del mismo color, provocando una

sensación de falta de homogeneidad.

Figura 4-18: a) Experimento 1: Montaje. b) Umbralización. c) Segmentación RGB. d) Clusterización RGB.

Por lo tanto, como se ilustró en el método (Apartado 4.1.1.1) se aplica un proceso de

clusterizado consistente en fusionar las 64 regiones, en un número más significativo que defina mejor

cada uno de los componentes del montaje. Así, se busca agrupar regiones segmentadas que por

iluminación, suciedad en la pieza, o por sombras provocadas por otros componentes del montaje,

aparecen como distintas cuando realmente forman parte de un mismo componente del montaje. Sin

embargo, el proceso de clusterizado empleado, también, puede provocar que algunas regiones se

fusionen con otras desvirtuando la segmentación (Figura 4-18.d). En este caso las características y los

parámetros escogidos en el proceso de clusterizado han fusionado una componente del montaje con el

fondo de la escena, y por otro lado, ha dejado sin fusionar algunas regiones de sombras y brillos, que

las ha considerado como otros componentes del montaje.

a) b)

c) d)


-97-

Como alternativa se aplica la segmentación HSV a la imagen del montaje del Experimento 1,

empleando el mismo esquema de segmentación: umbralizado, segmentado y clusterizado; pero

teniendo en cuenta que las tres componentes de color: matiz, saturación y luminancia, ya no aportan el

mismo grado de información, y ni siquiera se comportan de modo similar ante las mismas situaciones

de iluminación, ambientales, etc.

Si se aplica un proceso de umbralizado a cada componente (Figura 4-19.b), se observa que la

componente de luminancia proporciona regiones menos uniformes y más dispersas que las otras dos

componentes. Esto es debido a que es la que tiene una fuerte dependencia de brillos y sombras. La

componente del matiz, junto con la componente de saturación, determina el grado de color en la

imagen, y en este caso las regiones detectadas son más homogéneas. Aunque, el número de umbrales

empleado vuelve a proporcionar regiones no deseadas. Si se compone la imagen HSV y se somete a un

proceso de clusterizado por matiz (Figuras 4-19.c y 4-19.d), se observa que aunque en este caso han

quedado bien definidos los componentes que determinan el montaje, hay ciertas peculiaridades no

deseables que cabría destacar.

Figura 4-19: a) Experimento 1: Montaje. b) Umbralización. c) Segmentación HSV. d) Clusterización por matiz.

Un análisis e interpretación de la imagen segmentada muestra que la segmentación HSV se ve

influenciada en menor grado por los brillos y sombras, principalmente proporcionados por la

componente de la luminancia; aunque no solucionan el problema por completo, ya que las otras

a) b)

c) d)


-98 -

componentes también se pueden ver influenciadas aunque en menor medida. Además, el empleo

únicamente de la componente de matiz para clusterizar regiones, evita que pueda aparecer una

sobresegmentación posterior y se salvaguarde la influencia de los brillos y sombras recogidos

registrados en la componente de luminancia. Por otro lado, el evitar el empleo de la componente de

luminancia en el proceso de segmentación y clusterizado HSV, conlleva no sólo ventajas sino también

algunos inconvenientes, como la imposibilidad de detectar las regiones de algunos componentes del

montaje. Este es el caso, de las piezas en escala de grises presentes en el experimento 1. En las figuras

4-19.c y 4-19.d se puede observar que a pesar de que placa, cableados y conectores han sido

detectados, otro tipo de piezas como los tornillos y elementos de anclaje, que son piezas metalizadas y

que en la imagen responden a zonas acromáticas o colores grisaceos, se han visto eliminados. Además,

y como ya se comentó anteriormente, el hecho de trabajar con las componentes desacopladas de HSV

hace que se pierda generalidad de la información provocando colores poco realistas en la imagen

segmentada. Finalmente, se presenta en la Figura 4-20 la detección de regiones para las piezas del

montaje del experimento 1 y del experimento 2, empleando una segmentación combinada RGB-HSV.

Con ello, se busca tratar de aunar las virtudes de ambos espacios de color, tratando de que los

problemas que ofrece uno los solvente el otro método de segmentación. Y en las Figuras 4-21, y 4-22

se muestra una representación tridimensional de cada uno de las piezas segmentadas que definen cada

montaje.

Figura 4-20: a) Experimento 1: Montaje eléctrico. b) Segmentación y clusterizado RGB-HSVcombinado. c) Experimento 2. b) Segmentación y clusterizado RGB-HSV combinado.

a) b)

c) d)


-99-

El número de regiones detectadas con 3 umbrales por componente de color han sido 16. Y

finalmente, el proceso de clusterizado ha reducido el número de regiones a 6. Las piezas del montaje

han quedado todas ellas detectadas correctamente, aunque en algunos casos sigue apareciendo algunas

zonas influenciadas por las variaciones de luminancia que no han podido evitarse.

El empleo de las componentes del espacio HSV y el histograma bidimensional V/S se ha

empleado para determinar cuáles de los umbrales obtenidos para las componentes de color RGB son

válidos, y así depurar la imagen RGB. De este modo se ha permitido corregir algunas de las

situaciones de iluminación, brillos en el fondo, y algunas sombras que aparecían en la segmentación

RGB y al mismo tiempo se ha permitido detectar elementos como los tornillos que por sus

características de color no eran detectados por la segmentación en HSV.

Aplicando el mismo procedimiento, al montaje del experimento 2, se obtiene la segmentación

combinada HSV-RGB mostrada en la figura 4-22.

Figura 4-21: Experimento 1. Vistas tridimensionales de la segmentación realizada

Figura 4-22: Experimento 2. Vistas tridimensionales de la segmentación realizada.


-100 -

4.2. Estimación de zonas de oclusión en imagen

Para estimar las zonas de oclusión entre dos o más objetos, o entre componentes de un mismo

objeto se han empleado dos aproximaciones distintas, ambas constituyen aportaciones de esta Tesis.

Cada una de ellas, puede emplearse por separado o bien emplearse como dos algoritmos

complementarios. La primera de las aproximaciones (Apartado 4.2.1) tiene como fundamento los

métodos de detección de regiones comentados [Gil-2005a] y presentados en el Apartado anterior,

4.1.2. Y la segunda de las aproximaciones se basa en la detección de discontinuidades mediante el

empleo de sensores láser (Apartado 4.2.2) [Gil-2005b][Gil-2006].

Cada una de estas dos aproximaciones permite detectar zonas candidatas de oclusión cuando

en la escena aparecen objetos o componentes de objeto del que no se tiene un conocimiento, a priori,

que determine qué tipo o clase de objetos o componentes de objeto constituyen dicha escena.

La primera de las aproximaciones para detectar posibles zonas de oclusión parte de una

imagen de la escena previamente segmentada y reetiquetada en función de las tres componentes de

color. Y consiste en realizar una busqueda por la imagen buscando las zonas donde se produce un

cambio representativo en las características de color.

En cualquier caso esta aproximación obliga a suponer que los componentes que forman un

objeto se caracterizan por la homogeneidad en su color o textura, y por supuesto, se considera que

componentes distintos, u objetos distintos para ser considerados como entidades propias, deben tener

colores distintos.

Las zonas candidatas de oclusión siempre vendrán definidas por aquellas zonas en la imagen

en que un objeto o componente oculta parte de otro. Y estas zonas vendrán determinadas por los

cambios de color en las regiones segmentadas.

Sin embargo, la detección de zonas candidatas mediante esta aproximación puede llevar a

situaciones dificilmente detectables que pueden producir falsas detecciones de zonas candidatas de

oclusión, o situaciones en las que es imposible obtener esas zonas candidatas de oclusión cuando en

realidad si están presentes. Estos dos casos son (Figura 4-23):

• Dos o más objetos o componentes, tienen colores similares, texturas similares: En este

caso, no se podría aplicar el método, o si se aplicase no se detectaría ese cambio en las

características de color.

• Dos o más objetos o componentes, a pesar de tener características de color distintas,

no se encuentran solapados, sino que únicamente tienen una de sus caras en contacto,

sin embargo desde el punto de vista de la cámara ninguno de ellos oculta área alguna


-101-

visible del otro. En este caso, podría ser detectada como posible zona candidata de

oclusión el conjunto de píxeles en la imagen que definen la región de contacto entre

ambos objetos, puesto que hay un cambio de las características de color.

Figura 4-23: Situaciones de difícil detección.

Cuando se da alguno de estos dos casos, puede ser interesante considerar el otro método de

aproximación para la detección de discontinuidades, bien para detectar alguna zona candidata de

oclusión, en caso de que la primera aproximación no la detecte, o bien para eliminar falsas zonas

candidatas de oclusión que pudiendo ser zonas de oclusión, realmente no lo son.

La segunda aproximación parte de una imagen que recoge la deformación del haz de un sensor

láser. El haz del sensor al proyectarse e incidir en la superficie de diferentes objetos en la imagen

producirá discontinuidades en las proyecciones que vendrán dadas por las discontinuidades en las

superficies de los objetos. Se supone, que un objeto o un único componente del objeto está formado

por superficies suaves y que no hay cambios bruscos en su forma. Se considera que los cambios

bruscos sólo se dan entre distintos objetos situados en la misma escena.

Este método de detección, por lo tanto, podría ser aplicado en el primero de los casos para

detectar posibles zonas candidatas de objetos con color similar. Ya que para situar un objeto ocultando

parte visible de otro es necesario provocar un solapamiento. Y a su vez, un solapamiento provocará

una brusca discontinuidad entre las superficies de ambos objetos, siempre y cuando no sean objetos

planos.

Además, por otro lado, el empleo de luz estructurada permite, en algunos casos, discernir entre

objetos en los que existe solapamiento y un objeto oculta parte de otro, y por lo tanto si hay oclusión y

debería ser detectada la zona candidata de oclusión. Y aquellas otras situaciones, en la que a pesar de

que sí existe contacto entre caras de los objetos no hay un solapamiento, y por lo tanto un objeto no

oculta parcialmente parte de la superficie del otro. En estas situaciones, el empleo de luz estructurada,

determinará una cierta discontinuidad cuando haya solapamiento, y una muy leve discontinuidad

cuando no haya solapamiento.

No hay solapamiento sólo contacto No hay cambios de color en estas


-102 -

4.2.1. Detección de oclusiones por segmentación multinivel de espacios de color

Una vez los objetos o componentes que forman un objeto han sido segmentados y separados

por regiones de color, es importante definir las zonas candidatas de oclusión. Es decir, las posibles

zonas en la imagen que definen el límite de una oclusión. Estas zonas vienen determinadas por el

conjunto de píxeles de la imagen que definen un contacto entre diferentes objetos o componentes de

un objeto.

El primer paso, consiste en delimitar ciertas zonas que denominaré zonas de pre-busqueda. Se

definen las zonas de pre-búsqueda como aquellos conjuntos de píxeles en la imagen que pueden

determinar un contacto entre objetos o componentes, en la imagen segmentada. Y el segundo paso,

consiste en eliminar las zonas de pre-busqueda que aun pudiendo determinar una zona de contacto, en

realidad esa zona de contacto no corresponde a un solapamiento entre objetos o componentes. De este

modo, la principal ventaja de determinar zonas de pre-busqueda radica en restringir el espacio de

busqueda en la imagen, para reducir el tiempo computacional si lo comparamos con una búsqueda por

toda la imagen, y por otro lado, para evitar la detección de falsos solapamientos fuera de las zonas de

pre-busqueda.

Así, se restringe y delimita las zonas de pre-búsqueda en la imagen a todas aquellas zonas

donde hay cambios significativos de color. Estas zonas de pre-busqueda se definen a partir de un

detector de bordes, ya que un borde se puede definir como la transición entre dos regiones de niveles

de gris o color significativamente distintos. Por lo tanto, el primer objetivo consiste en localizar las

zonas de píxeles en los que se produce una variación significativa de color. De este modo, se calculan

todas las zonas de píxeles en las cuales el gradiente de las componentes de color se hace máximo

local. Para calcular estas regiones se puede emplear alguno de los detectores de bordes ampliamente

comentados en la literatura sobre procesamiento de imágenes. De los cuales cabe destacar dos, el

detector de Canny [Canny-1986] y el detector de Cumani [Cumani-1991]. La principal ventaja del

detector de Cumani es que permite detectar bordes en imágenes multiespectrales, tales como imágenes

RGB. Por otro lado, el detector de Canny se emplea en imágenes con una única componente espectral,

la luminancia, también conocida como niveles de gris.

Se ha considerado el empleo del detector de Canny, en vez del detector de Cumani por razones

de coste computacional, con la intención de reducir al máximo los tiempos de preprocesamiento. Una

detección óptima por el método de Cumani necesita el empleo de las tres componentes de color de una

imagen RGB, mientras que una detección por el método de Canny sólo necesita trabajar con la

componente de intensidad o luminancia y por lo tanto, este método es más rápido en su ejecución. La

componente de intensidad para detectar por el método de Canny se ha calculado como una media


-103-

artimética de las tres componentes de color RGB, 3/)( bgri ++= . Si la imagen está representada en

el espacio de color HSV, la intensidad corresponde al valor de luminancia y se ha calculado

como { }bgrv ,,max= .

Sin embargo, aunque un detector de bordes de Canny permite determinar un espacio de pre-

búsqueda, muchos de los bordes considerados por este detector puede que no pertenezcan a zonas

candidatas de oclusión. De ahí, que parte de los bordes detectados puedan ser rechazados y no formar

partes de zonas candidatas de oclusión. Por esta razón, una vez determinado el espacio de pre-

búsqueda, los bordes obtenidos cuyas características determinen que no se trata de una zona de interés

no serán considerados como zonas candidatas.

Así, un borde será rechazado y no considerado como parte de una zona de solapamiento

cuando separe una región cualquiera de color de una región de color que se considera como fondo. Por

supuesto, se está considerando que se conoce el color del fondo, bien porque ha sido previamente

definido o porque se considera fondo el color que aparece en mayor porcentaje en la imagen. De este

modo, se considerarán rechazados como zonas de solapamiento, todos los bordes externos de los

objetos, es decir aquellos que forman parte del contorno del conjunto de objetos o componentes de un

objeto. El espacio de pre-búsqueda queda de esta manera reducido a todos aquellos bordes que son

internos a los objetos y que no son parte del contorno que separa fondo y objetos.

Figura 4-24: Detección de zonas de pre-búsqueda.

Se pueden, por lo tanto, considerar dos tipos de bordes que pertenecen al espacio de pre-

búsqueda calculado por el detector de bordes. Por un lado, los bordes que constituyen el contorno del

conjunto de todos los objetos o componentes, denominados aquí bordes externos, y por otro lado, los

bordes de los contornos de cada uno de los objetos o componentes denominados bordes internos

(Figura 4-24). De modo, que sólo los bordes internos pueden ser considerados como parte de una zona

candidata de oclusión. El proceso para la detección de bordes consiste en recorrer la imagen buscando

puntos de borde mediante el detector de Canny. Y cuando se encuentra un punto de borde, se analiza

un entorno de vecindad buscando otros puntos de borde mediante máscaras de conectividad 8. Y todos

los puntos de borde encontrados en la misma dirección de búsqueda son etiquetados como puntos de

un mismo contorno. Así, el objetivo es ir chequeando todos los puntos de borde asociados con un

Zonas candidatas de oclusión

Bordes internos

Bordes externos

Zonas candidatas de oclusión


-104 -

punto de borde considerado inicialmente y agrupando éstos siempre que estén en la misma dirección

de búsqueda, hasta que ya no queden puntos por encontrar en esa dirección. Cuando ya no haya más

puntos que puedan ser agrupados en esa dirección, se retorna al punto de borde inicial y se continúa en

la dirección contraria.

Una vez se dispone de los bordes que forman el espacio de pre-busqueda, se hace necesario

discernir entre los bordes internos y externos. Para ello, se ajustan los bordes mediante segmentos. Y

posteriormente, se analizan los entornos de vecindad alrededor de cada segmento testeando los valores

de color de su entorno próximo (Figura 4-25). De este modo se puede o bien testear todos los puntos

que forman el segmento o sólo un cojunto de puntos significativos que definen el segmento (extremos

y punto medio) en función del grado de precisión y de rápidez computacional que se busque. Así, para

cada punto, se calcula, las características de color diferentes que hay en su entorno de vecindad. El

número y tipo de características de color determina si el borde es interno o externo. Una vez

clasificados los bordes, todos los bordes externos serán rechazados como posibles zonas candidatas de

oclusión.

Figura 4-25: Evaluación de regiones de pre-búsqueda.

Un punto de borde pertenece a un borde externo si hay un porcentaje significativo de píxeles

en su entorno de vecindad próximo que tienen el mismo color que el fondo. Es importante, enfatizar

que durante el proceso de segmentación, pueden aparecer fallos de segmentación debido a la falta de

homogeneidad en el color de los objetos segmentados. Este problema puede ser evitado en parte no

considerando los colores cuyo porcentaje de píxeles se encuentra por debajo de un valor de tolerancia

determinado. Para los ejemplos aquí mostrados se ha fijado aproximadamente en el 15%.

Resumiendo, los pasos que se han seguido en el proceso de detección de zonas candidatas de

oclusión son los siguientes:

1. Se parte de una imagen color previamente segmentada de acuerdo al Apartado 4.1.2.

Esta imagen representa el área que define cada objeto o componente, y que a su vez

separa éstos del fondo.

2. Obtener el espacio de pre-búsqueda a partir de un detector de bordes de Canny,

determinando bordes internos y bordes externos.

Detectados como internos

Detectados como externos


-105-

3. Enlazar los puntos de borde obtenidos y unirlos de modo que constituyan una lista de

secuencia de puntos de borde, etiquetándolos. De este modo, se dispondrá de una lista

de bordes, cada uno de ellos formado por un número de puntos, pudiéndose descartar

aquellos bordes formados por un número pequeño de puntos. Un punto será un píxel

en la imagen.

4. Ajustar los bordes encontrados (puntos de borde agrupados y etiquetados) mediante

segmentos. El criterio de ajuste se realiza usando la distancia entre píxeles.

5. Se chequean los segmentos obtenidos buscando unir segmentos próximos. Los

segmentos cuya orientación sea menor que un determinado ángulo de tolerancia y

cuyos puntos extremos estén a una distancia menor a una distancia de tolerancia, se

unen formando un único segmento.

6. Discernir entre bordes internos de bordes externos testeando las caractísticas de color

del entorno de vecindad.

La aproximación aquí propuesta se restringe al uso de información de color, por lo tanto el

principal problema se puede dar cuando se trata de detectar zonas candidatas de oclusión en imágenes

monocromáticas o en escala de grises. La motivación para trabajar con imágenes en color en vez de

con imágenes en escala de grises viene determinada por la dificultad para segmentar imágenes en

escala de grises, dónde los brillos y sombras son mucho más críticos, y determinan diferentes niveles

de gris. Una sombra, en una imagen en escala de grises, puede ser confundida con otro nivel de gris

más oscuro (de menor valor de luminancia), y un brillo un nivel de gris más claro. La segunda

aproximación que a continuación se plantea busca superar estas limitaciones incorporando luz

estructurada para ayudar a identificar distintos tipos de regiones en imágenes monocromáticas.

Además, también, supone una motivación importante para mejorar la detección de zonas candidatas de

oclusión en imágenes en color, empleándose complementariamente a la aproximación ya comentada.

En las dos figuras siguientes, Figuras 4-26 y 4-27, se muestra un ejemplo de detección de

zonas candidatas de oclusión entre dos objetos, y entre un objeto formado por un montaje de varios

componentes. La secuencia de imágenes describe los pasos de procesamiento comentados. Primero, la

detección de bordes como espacio de pre-búsqueda, después la construcción de segmentos, y la

evaluación de los segmentos como bordes externos o internos.


-106 -

Figura 4-26: Detección de zonas candidatas de solapamiento.

Figura 4-27: Detección de zonas candidatas de solapamiento en un montaje con varios componentes.


-107-

4.2.2. Detección de oclusiones por discontinuidades en patrones de luz estructurada

La aproximación original aquí propuesta para la detección de zonas de oclusión está basada en

el empleo de patrones de luz estructurada sobre la superficie de objetos en una escena. Además, esta

técnica de aproximación para la detección de zonas de oclusión constituye otra de las aportaciones de

esta Tesis [Gil-2005b][Gil-2006]. Estos patrones de luz determinarán al incidir sobre distintas

superficies, ciertas discontinuidades en la proyección de los haces. Y estas discontinuidades

delimitarán, por otro lado, regiones candidatas de oclusión.

Cuando más de un plano de luz incide sobre superficies distintas de objetos o sobre superficies

de un mismo objeto en distintos niveles de profundidad se produce un efecto de discontinuidad en las

proyecciones. Es decir, se forman distintos planos de haz de luz, ya que estarán desplazados

espacialmente. De modo que una franja de luz se vuelve discontinua cuando se proyecta formando

planos espaciales distintos.

Aunque este tipo de detección parece verse influenciada por muchas restricciones y carencias,

empleada junto con un sistema de segmentación de color permite determinar con mayor exactitud esas

zonas candidatas de oclusión que en un proceso de segmentación no quedan del todo bien definidas.

Este es el caso, cuando disponemos de objetos con oclusiones por solapamiento con contacto y

solapamiento sin contacto. Es decir, oclusiones en los que un objeto oculta parte visible de otro, en

función del punto de vista del observador.

De ahí, que aquí se presente una aproximación para abordar el problema de mejora del

reconocimiento de objetos en escenas dónde dos o más objetos pueden aparecer ocluidos, por ejemplo

debido al solapamiento con o sin contacto físico de uno sobre el otro. Esta aproximación se basa en el

estudio previo de las posibles zonas que se pueden considerar zonas candidatas de oclusión. Y de este

modo tener conocimiento de dónde puede haber parte oculta del objeto a reconocer.

En este apartado se introduce la técnica empleada para detectar solapamientos basados en la

discontinuidad de luz estructurada proyectada sobre la escena. Y más adelante, se comentará cómo

esta técnica de detección facilitará la labor de detección de oclusiones en una doble vertiente:

a) Por un lado, por si mismo, el método es capaz de detectar ciertas zonas de oclusión, sin

necesidad de conocimiento previo de color, textura o forma de los objetos.

b) Por otro lado, el método añade información adicional que permite combinarse con otros

métodos de segmentación de regiones: color, texturas, etc. De este modo, a partir de la información

proporcionada por las direcciones de discontinuidad será posible mejorar la segmentación y posterior

detección de las zonas de oclusión en piezas y objetos poliédricos parcialmente ocultos.


-108 -

4.2.2.1. Detección con Patrones circulares

Se han escogido patrones circulares en vez de patrones lineales, porque en estos últimos es

más difícil detectar las discontinuidades en piezas geométricas poliédricas que son en las que se han

basado los experimentos y las formas que más se encuentran en los procesos de desensamblado que se

han contemplado.

Figura 4-28: a) Deformación patrón láser al incidir sobre superficie de objetos. b) Preprocesado proyección de los haces.

Así, se ha decidido proyectar un haz de planos de luz formados por círculos concéntricos

(Figura 4-28.a). La distancia de la cámara a la escena ha sido escogida de modo que se abarque la

mayor área posible; y de este modo evitar la necesidad de mover el sistema cámara-láser para escanear

toda la superficie deseada. Para ello se han empleado una cámara CCD y un láser LASIRIS SNF de

660nm de 20mW de potencia y con un ángulo de apertura de 15º y separación de 0.77º entre líneas.

Aunque para la realización de las pruebas que aquí se comentan se ha montado en un trípode fijo, más

adelante se verá su utilidad, montada sobre el extremo de un robot, en una configuración ‘eye-in-hand’

típica de control visual.

Aproximación de los contornos de los patrones circulares

Una vez se ha producido la proyección de los haces sobre la superficie de los objetos. El

primer paso, consiste en extraer el contorno del patrón. Para ello, en primer lugar, se ha optado por

realizar un proceso de suavizado Gaussiano 3x3 que reduzca el ruido producido por los haces del láser

al incidir en superficies excesivamente reflectantes. Este tipo de suavizado garantizará, además, la

eliminación de pequeños reflejos causados por las imperfecciones de la lente difractiva del láser, que

en algunas ocasiones hace que cada uno de los círculos concéntricos proyectados no tengan la

definición adecuada en sus bordes. También, este tipo de suavizado permitirá eliminar el ruido propio

del proceso de captura y adquisición de una imagen con una cámara analógica y su tarjeta de

digitalización.

a) b)


-109-

A continuación, se binariza la imagen con un umbral adecuado de acuerdo a la longitud de

onda del láser con el que se trabaja 660nm. En este caso experimentalmente se ha considerado un

umbral de saturación U=70, para extraer únicamente la información de contorno procedente del patrón

láser. Posteriormente, se esqueletizan levemente estos contornos, simplemente para reducir el grosor

de cada haz (Figura 4-28). Con ello, se pretende reducir el número de puntos que definen un contorno,

a los más significativos, que serán todos aquellos que se encuentran más alejados de los bordes de esos

contornos. Una esqueletización en exceso puede producir perdida de información y aparición de falsas

discontinuidades. Y, a continuación, se detecta la proyección de los haces circulares en la imagen

mediante convolución de la imagen binaria con máscaras de 8-conectividad. Así, se buscan los píxeles

que definen cada contorno y que corresponden a los puntos 2D que forman cada una de las

proyecciones de un haz.

Una vez se han detectado los contornos, como un conjunto de puntos es necesario aproximar

cada uno de esos contornos por algún tipo de primitiva geométrica que defina el contorno, y le procure

una serie de propiedades. Propiedades que más adelante se emplearan para diferenciar unos contornos

de otros. Se ha escogido como método de aproximación para determinar la representación de cada

contorno circular, una aproximación poligonal.

La ventaja de emplear una aproximación poligonal radica en dos objetivos básicos: Por un

lado obtener una representación sencilla de cada contorno que permita un proceso de comparación

entre contornos rápido y eficiente. Y por otro, busca reducir el número de puntos de interés detectados

en la etapa de extracción de contornos. De este modo, se consigue que la proyección del haz, sólo

venga representada por un conjunto mínimo de puntos de interés definiendo una forma más estable

para representarlo, que el conjunto de todos los puntos que inicialmente formaban el contorno (Figura

4-30).

El método empleado de aproximación se basa en el algoritmo de Douglas-Peucker [Douglas-

1973][Hershberger-1993]. Dónde, cada contorno se aproxima por una poli-línea, Ps. Si se define un

contorno como { }ns pppC ,...,, 21= que viene determinado por una secuencia de n puntos. Se puede

definir una poli-línea Ps, como la unión de segmentos l de grado uno.

{ } { }10/)1( 1

1

11

1

1≤≤−+== +

−

=+

−

=tpttpllP ii

n

iii

n

is UU (4.8)

{ }2...1 ≥= nppP ns (4.9)

El ajuste se basa en la representación de un conjunto de puntos por segmentos de borde

donde la proximidad de cada punto al segmento de borde tiene que ser inferior a un factor de

tolerancia ε que se toma como umbral de referencia. La proximidad se mide como un vector normal de

distancia a cada segmento de borde candidato. El algoritmo comienza aproximando todos los puntos


-110 -

de un mismo contorno { }ns pppC ,...,, 21= mediante una poli-línea que une el primer y último punto

del contorno { }ns pplP 11 == . Se va midiendo, la distancia de cada punto intermedio ip a la poli-línea,

y el punto más alejado con un factor de tolerancia superior a ε, es añadido al proceso de simplificación

e interviene para formar una nueva poli-línea { }nis pppP 1= que posteriormente quedará dividida en

dos segmentos { }ippl 11 = y { }ni ppl =2 que compondrán { } { }nis pppllP 121 , == .

Así, se repite este proceso iterativamente, para cada contorno hasta que todos los puntos de la

poli-línea están dentro del rango marcado por el factor de tolerancia. Si la distancia de un punto

intermedio es menor que el valor de tolerancia, no es tomado en cuenta para la simplificación de la

poli-línea (Figura 4-29).

Figura 4-29: Ejemplo de Aproximación de Douglas-Peucker.

El proceso de ajuste poligonal ha permitido aproximar los contornos del haz del láser de un

modo más estable que un conjunto de puntos de contorno. Donde cada contorno está compuesto ahora

por un número inferior de puntos mayor que dos, que es el número mínimo de puntos necesarios para

definir un segmento.

Sin embargo, a pesar del preprocesamiento previo durante el proceso de detección de

contornos, se han aproximado contornos por polígonos de pequeña longitud, y formados por un

número de puntos pequeño. Este conjunto de contornos aún puede deberse a ruidos, datos espurios o

puntos de contorno que aportan poca información, en la detección de discontinuidades de contorno.

Por lo tanto, conviene filtrar los contornos aproximados para trabajar sólo con aquellos que tienen

cierta longitud y están determinados por un número de puntos superior a tres { }3...21 ≥= npppP ns .

Se escoge un mínimo de tres puntos, porque es necesario al menos tres puntos para determinar un

polígono, o bien para definir un cambio de dirección.

Curva original

Polilinea aproximadaPolilinea aproximada

Curva original Refinar

ε


-111-

Figura 4-30: Ajuste poligonal de contornos.

Una vez depurados, es necesario renumerar los contornos candidatos, despreciando los que no

son de utilidad porque no aportan información de discontinuidad importante o pueden llevar a

confusión (Figura 4-31).

Figura 4-31: Distribución de los puntos críticos.

Una vez, las aproximaciones poligonales ya han sido filtradas, obtenemos únicamente los

puntos de los extremos, que van a ser los puntos críticos que determinarán las zonas de

discontinuidad, { }31 ≥= nppP ns . Estas zonas de discontinuidad no son más que las regiones de rotura

de las proyecciones de los haces de luz, al incidir sobre la superficie de los objetos. El conjunto de

estos puntos delimitará una dirección de búsqueda de posibles oclusiones.

Posteriormente, se realiza un método de ajuste de los puntos críticos mediante líneas rectas.

Estas líneas rectas definirán las regiones candidatas y la dirección adecuada para la búsqueda de

posibles oclusiones (Figura 4-34).

Se ha empleado una aproximación de patrones basados en aproximación poligonal de

Douglas-Peucker por dos factores fundamentalmente. El primero de ellos, radica en la rapidez de éste

tipo de aproximación lineal, ya que para una curva formada por n puntos, es proporcional a )(log2 nn .

Contornos originales Detalle de la aproximación

A

B C


-112 -

Y el segundo, porque no es necesario disponer de un conocimiento a priori de datos sobre la curva.

Aunque esta información podría considerarse no relevante, porque las curvas tienen un patrón

definido, sí que puede serlo porque no se dispone de un conocimiento previo de cómo se deformará el

haz de luz sobre la superficie de los objetos. Además, el algoritmo permite modificar el valor de

tolerancia para ajustar con mayor o menor precisión y conseguir aproximaciones poligonales de los

contornos más o menos complejas. Puesto que a mayor precisión, mayor número de puntos formarán

parte de la poli-línea.

Agrupamiento de puntos: Clusterización

Para poder determinar cuántas líneas son necesarias para ajustar el conjunto de puntos críticos

y determinar qué conjuntos de puntos críticos pertenecen a una u otra poli-línea de aproximación, se

lleva a cabo un proceso de clusterización del conjunto de puntos críticos. Este proceso de

clusterización permitirá agrupar los puntos críticos en función de dos parámetros: momentos

inerciales [Teague-1980] y distancia [Chavez-1999]. Así cada contorno aproximado por una poli-línea

sP tiene dos puntos críticos, cada uno de ellos deberá pertenecer a clusters distintos. Se entiende, que

pertenecerán a clusters distintos porque formarán parte de dos roturas distintas del haz de proyección.

Y, además, a cada uno de esos puntos críticos se le asocia los momentos espaciales y centrales de la

poli-línea a la que pertenecen.

Los momentos espaciales de un contorno, determinado por una poli-línea, dependen del área y

la posición que ésta ocupa en la imagen.

∫∫= dxdyyxfyxm qpqp ),(, (4.10)

A partir de los momentos espaciales, se pueden derivar los momentos centrales que son

invariantes a la traslación de haces idénticos en la imagen, y no depende de la posición que las

proyecciones que estos ocupan en la imagen.

∫∫ −−= dxdyyxfyyxx qc

pcqp ),()()(,μ (4.11)

Estos, se pueden calcular como una derivación de los momentos espaciales:

qp

qpqp m

mmm

mm

⎟⎟⎠

⎞⎜⎜⎝

⎛⋅⎟

⎟⎠

⎞⎜⎜⎝

⎛−=

0,0

1,0

0,0

0,1

0,0

,,μ (4.12)

Y a su vez, a partir de los momentos centrales y con ayuda de las componentes del tensor

inercial, se puede determinar la rotación de cada contorno, sobre su centro de gravedad, como:


-113-

2,00,2

1,12arctan

21

μμμ

θ−

= (4.13)

Para evitar la ambigüedad que se puede dar en la orientación en función del valor del ángulo,

se han empleado los criterios mostrados en la tabla 4-2.

2,00,2 μμ −

1,1μ θ Cuadrante

+ + θθ = º45º0 << θ

+ - θθ = º0º45 <<− θ

- + 90+= θθ º90º45 << θ

- - 90−= θθ º45º90 −<<− θ

Tabla 4-2: Criterios de eliminación de ambigüedad en la orientación.

El parámetro de momentos inerciales se emplea para discernir entre puntos críticos que

pertenecen a poli-líneas, y por lo tanto a contornos que tienen una misma orientación. De este modo,

se puede suponer, lo cual parece lógico, que proyecciones de haces sobre una misma superficie de un

objeto A tienen momentos inerciales similares. Sin embargo, los momentos inerciales, calculados para

las proyecciones de los haces sobre la superficie de otro objeto B, que se encuentre solapado

ocluyendo parte de A, difieren con respecto a los de A (Figura 4-31). Esto se debe a que cuando se

produce una discontinuidad en los haces, esta discontinuidad provoca un cambio de orientación de los

haces, y por lo tanto un valor de los momentos inerciales de los contornos que los definen en la

imagen.

También, se ha empleado un parámetro de distancia para evitar que se agrupen como puntos

de misma regiones candidatas, aquellos que pueden coincidir en momento, pero por falta de

proximidad es posible que no pertenezcan a la misma región candidata. Así, se agrupan únicamente

puntos críticos próximos entre sí, y cuyas poli-líneas a las que pertenecen tienen momentos similares.

Se procede del siguiente modo:

Se calculan las distancias de cada punto crítico, al resto de puntos críticos, tratando de

minimizar la distancia Minkowski L2, también conocida como Euclídea:

r

ji

rjiL ppd

r

/1

,⎟⎟

⎠

⎞

⎜⎜

⎝

⎛−= ∑ (4.14)


-114 -

Y se obtienen n conjuntos de puntos del siguiente tipo: { } nisssp ni <<= 0/...21 donde

{ }nsss ...21 son los puntos más próximos a ip ordenados en orden de proximidad. Y a continuación para

cada conjunto de puntos se obtiene la diferencia de momentos.

sjpiijd θθθ −= (4.15)

A partir de las distancias y la diferencia de momentos calculados para cada conjunto

{ }ni sssp ...21= , se realiza el proceso de clusterizado, almacenando juntos los puntos críticos de

acuerdo al esquema de la figura 4-32, para evitar almacenar dos puntos críticos como pertenecientes a

dos cluster o agrupaciones distintas.

Figura 4-32: Esquema de proceso de clusterizado.

El proceso de clusterizado consiste en numerar todos los puntos significativos o puntos

críticos (Figura 4-31), que son todos aquellos puntos de los extremos de las poli-líneas aproximadas.

Se toma un punto ip , se busca y comprueba que no éste almacenado. Si no está almacenado se

almacena y se inserta como elemento de un cluster nuevo. Y si ya estaba almacenado, se buscan de

entre los puntos is de mayor proximidad al punto ip , los que tienen un momento similar dentro de un

rango de tolerancia.

De esta manera, dados dos puntos ip y js , estos se podrán almacenar conjuntamente formando

parte de un cluster, únicamente si cumplen que cijd ϕθ < , siendo cϕ la tolerancia angular permitida

para considerar como similar o distinta orientación.

En caso de que sí se cumpla el criterio de similitud de orientación habrá que comprobar si

estos puntos se encuentran ya almacenados formando parte de un cluster o no es así. En el esquema de


-115-

la figura 4-32, se muestra cuando y cómo se almacenaría un punto ip y/o js como parte de un cluster.

En él se muestra cómo, si los puntos ya habían sido almacenados como parte de un cluster no se

almacenan, y en caso de que alguno de ellos no forme parte de un cluster aún, pero el otro sí, entonces

se guarda el punto no almacenado en el mismo cluster en el cual se encontraba el otro.

Analizando la distribución espacial de los clusters de los puntos críticos mostrados en la figura

4-31, se observa que conjugando parámetros como distancia y momentos inerciales, se pueden

agrupar puntos que a priori podrían considerarse muy distintos entre sí (Figura 4-33.b), es decir

pertenecientes a objetos distintos. En concreto, en la figura 4-33.a se observa cómo quedan agrupados

los puntos críticos mostrando los clusters obtenidos en contraste con la posición que ocupan en la

imagen. Y en la figura 4-33.b, se observa cómo se han agrupados los puntos críticos tomando no sólo

la referencia de la posición sino también de los momentos.

200 300 400 500 600 700

150

200

250

300

350

400

450

500

200300

400500

600700

100

200

300

400

500

-60

-40

-20

0

20

40

60

80

Figura 4-33: a) Representación 2D de los clusters. b) Representación 3D de los clusters.

Cálculo de las direcciones de discontinuidad

Para finalizar, una vez agrupados los puntos críticos mediante el proceso de clusterización. Se

pueden definir las regiones candidatas como aquellas que contienen cada uno de los conjuntos de

puntos calculados. Para determinar la dirección de búsqueda de esas regiones candidatas y su

delimitación basta realizar un ajuste lineal por mínimos cuadrados que calcule los segmentos de recta

que minimizan la distancia de Minkowski L1-L2 de cada uno de los conjuntos de puntos críticos al

segmento de recta (Figura 4-34).

Finalmente, en la figura 4-34 se observa el resultado de la clusterización de los puntos críticos

y su posterior ajuste por segmentos de recta para delimitar regiones y direcciones de solapamiento u

oclusión.

A

B C

a) b)

Posición punto en la imagen

Distancia [píxeles]

Fila

s en

la im

agen

[píx

eles

]

Columna en la imagen [píxeles]


-116 -

Figura 4-34: a) Escena real. b) Limitaciones posibles regiones de solapamiento calculadas.

Un pequeño estudio de los costes temporales de ejecución de este algoritmo de detección de

oclusiones por discontinuidades se puede observar en el Anexo B.1.2. En dicho anexo se muestran los

tiempos de ejecución para cada una de las fases de las que consta el algoritmo, las cuales ya han sido

comentadas a lo largo de este apartado de la Tesis doctoral. Los tiempos de ejecución del orden de

0.2ms (ver Anexo B.1.2) permiten implementar el método conjuntamente con un sistema de control

visual basado en imagen para la detección de discontinuidades como se comenta más adelante en el

Apartado 4.2.2.2.

Experimentos.

En los experimentos que se detallan a continuación han sido empleados objetos sencillos de

formas poliédricas. Las imágenes adquiridas se han realizado en formato CCIR de 768x576 píxeles y

todas las imágenes han sido adquiridas con una cámara JAI CCD monocromo para evitar disponer de

información de color.

Los resultados experimentales muestran satisfactoriamente y de modo coherente la detección

espacial de las discontinuidades cuando éstas son causadas por solapamiento de objetos (Figura 4-35).

Además es importante destacar, que el método propuesto permite trabajar correctamente, incluso en

situaciones difíciles, en las cuales las discontinuidades no son causadas por solapamiento de objetos,

en los que un objeto B oculta parte de otro A. Supóngase el caso en que se dispone de tres objetos uno

B oculta parte de A, porque tiene un solapamiento (B se encuentra encima de A) y otro objeto C

presente en la escena se encuentra en contacto o muy próximo al objeto A, pero sin ocultar parte de

este en el campo visual de la cámara. La situación deseada sería que se pudiera detectar la

discontinuidad causada por el solapamiento que produce una oclusión, pero que a su vez no se

considerará en ningún caso la discontinuidad que no viene producida como consecuencia de una

configuración de solapamiento con oclusión.

A

B C


-117-

En las figuras 4-35.b y 4.35.c se puede observar cómo únicamente las discontinuidades por

solapamiento con oclusión son detectadas, y las discontinuidades, dónde no existe una oclusión entre

dos objetos de la escena no son detectadas como tales. Este es el caso, en que dos objetos por su

localización uno de ellos, B, obstruye parcialmente la vista de otro A, y a su vez ambos reposan sobre

una mesa. De modo que habría una discontinuidad dónde las superficies visibles de B y A se

encuentran, y a su vez, habría también discontinuidades en las regiones dónde las superficies de B y/o

A se encuentran con la superficie de la mesa. En estos casos, sólo las discontinuidades entre

superficies de objetos deben ser detectadas.

Figura 4-35: Ejemplos de oclusiones entre objetos y detección de solapamiento.


-118 -

4.2.2.2. Detección de discontinuidad de superficies en un sistema de control visual con

configuración ‘eye in hand’.

En este apartado, se presenta un método que permite detectar discontinuidades en superficies

haciendo uso del algoritmo presentado en el Apartado 4.2.2.1, [Gil-2006] en combinación con técnicas

de control visual. De este modo, se demuestra que el método de detección de zonas de oclusión

propuesto en esta Tesis es válido para aumentar la robustez en la detección de discontinuidades en

tareas consistentes en recorrer superficies diversas, como así ha sido publicado en [Pomares-2006b].

Para llevar a cabo las tareas de seguimiento de superficies es necesario un sistema de control visual,

que permita el guiado a partir de la estimación de unas características dadas o marcas en la imagen

[Pomares-2004][Pomares-2006a], y de este modo determinar una trayectoria que permita a un robot

manipulador recorrer la superficie de un objeto.

A continuación, se comenta la arquitectura del sistema empleado, el esquema de control visual

empleado, así como el método de detección empleado. Primero, se expondrá el método empleando

sólo fuerzas y la mejora obtenida a partir de la incorporación del método mostrado en 4.2.2.1 como

información visual para aumentar la robustez de la detección.

Cámara en el extremo del robot y control basado en imagen.

La arquitectura que aquí se emplea consiste en situar la cámara en el extremo del robot. De

modo que los objetos del espacio de trabajo que interaccionen con el efector del robot se encuentran

dentro del campo visual de ésta. En este caso, el sistema de visión se ha empleado para determinar

discontinuidades de manera coordinada y cooperativa con un sistema de control visual-fuerza. En

concreto, el sistema de visión ayudará a determinar la localización exacta de discontinuidades en

superficies de objetos con respecto al extremo del robot. El sistema de control visual es del tipo “ver y

mover” dinámico basado en imagen (Figura 4-36) [Torres-2002][Pomares-2004]. De este modo, el

sistema de visión usado permite realimentar visualmente el movimiento del robot cuando se encuentra

haciendo la tarea de recorrido de la superficie. Esta realimentación permitirá al sistema corregir

posibles errores de posición o modificar la trayectoria del robot ante posibles movimientos o

alteraciones en los objetos del espacio de trabajo.

En un sistema de control basado en imagen, como el mostrado en la figura 4-36, el control se

realiza directamente a partir de las características extraídas por el sistema de visión. De esta manera, la

entrada al regulador será una comparación entre las características observadas y las deseadas o de

referencia.

Las características deseadas se denotan por { }4...1/ ∈= ifs idd y representan la entrada de

referencia. Estas características representan la proyección del objetivo a alcanzar en el espacio de la

imagen. Durante el desarrollo de la tarea, el sistema de visión extrae las características reales


-119-

{ }4...1/ ∈= ifs i . Estas características denotarán las posiciones en píxel en el espacio imagen de los

centros de gravedad de cuatro marcas situadas en la superficie a recorrer, en cada uno de los

movimientos que realiza el robot. El regulador, comparando las características reales extraídas y las

deseadas, realiza las acciones necesarias para que se consiga alcanzar la posición en que dss = .

Figura 4-36: Control visual basado en imagen, configuración “ver y mover” dinámico.

En la Figura 4-37 se muestra la arquitectura del sistema empleado una configuración de

cámara en el extremo del robot. El sistema se compone de una cámara PHOTONFOCUS situada en el

extremo de un robot Mitsubishi PA-10 de 7 grados de libertad. En el mismo extremo de robot se ha

equipado al sistema del láser LASIRIS SNF de 660Nm de longitud de onda, que ha venido

empleándose en los experimentos anteriores. La cámara empleada en este caso difiere de la empleada

para el cálculo de zonas de solapamiento en objetos. En este caso, la cámara requiere de mayor

velocidad de captura, 100 imágenes por segundo, y la resolución requerida es más pequeña 320x240

píxeles.

Figura 4-37: Detalle del sistema de sensorización montado en el extremo del robot.

Ley de control y Control visual basado en imagen.

El objetivo es alcanzar { }4...1/ ∈= ifs idd a partir de { }4...1/ ∈= ifs i , de modo que una vez que

el robot alcance la posición deseada, la posición de las características extraídas a partir de la imagen

LáserSensor de fuerza

Herramienta y efector

Cámara


-120 -

sea exactamente igual a las deseadas dss = . La ley que regulará el control de movimiento del robot

busca por lo tanto minimizar la diferencia )( dsse −= .

Si las características extraídas son posiciones en el espacio de la imagen, la velocidad con la

que se mueven estas características en el espacio imagen está relacionada con la velocidad con la que

se mueve la cámara montada en el extremo del robot, mediante la matriz de interacción, Ls, [Samson-

1991]. El sistema de coordenados de referencia para relacionar la velocidad de las características, .s ,

con la velocidad del sensor, v , está situado en el propio sensor. Y la ley de control empleada en el

control visual utilizado por el sistema de visión, vendrá dada por:

vLs s ⋅=.

(4.17)

Definiendo una ley de control de tipo gradiente e imponiendo un decrecimiento exponencial

del error de ganancia λ, se obtiene:

( )dsssLesLv −⋅−⋅=⋅−⋅= 11 λλ- (4.18)

Además, las características empleadas, extraídas de la imagen, { }4...1/ ∈= ifs i se reducen a

los centros de gravedad de cuatro marcas circulares que se emplean para realizar el seguimiento. Si

cada característica se representa por un punto en el sensor de la cámara y se denota como ( )iii yxp , , la

proyección entre las coordenadas del punto en el sensor 2D y las coordenadas 3D de este mismo punto

en el espacio ( )iiii ZYXP ,, viene determinada por (ver Anexo A.3):

i

ii

i

ii

ZY

y

ZX

x

=

=

(4.19)

De modo que, la matriz de interacción Jacobiana, Ls, tendrá 6 columnas que definen los 6

grados de libertad, y 2 filas por cada coordenada ( )ii yx , . La coordenada iZ ha sido estimada para el

modelo introducido.


-121-

⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢

⎣

⎡

−⋅−+−+−⋅−

−⋅−+−+−⋅−

−⋅−+−+−⋅−

−⋅−+−+−⋅−

==

4442

44

42

4444

3332

33

32

3333

2222

22

22

2222

1112

11

12

1111

1//10)1(/0/1

1//10)1(/0/1

1//10)1(/0/1

1//10)1(/0/1

xyxyZyZyxyxZxZxyxyZyZ

yxyxZxZxyxyZyZ

yxyxZxZxyxyZyZ

yxyxZxZ

LL xys (4.20)

Si además, se quieren expresar las coordenadas de los puntos característicos en el espacio

imagen en vez de en el espacio del sensor CCD de la cámara, entonces habrá que aplicar de nuevo,

algunas de las transformaciones, comentadas en el Anexo A.3. Y así, cada coordenada ( )iii yxp ,

medida en milímetros, se puede proyectar en coordenadas ( )iii vup , del espacio imagen, como:

yiyi

xixi

oyfvoxfu

+=+=

(4.21)

Agrupando las ecuaciones (4.21) de la proyección de un punto en el espacio 2D del sensor

sobre el espacio imagen 2D, determinado por el modelo de cámara de pin-hole, y la matriz de

interacción (4.20), se tiene que la nueva matriz de interacción es Luv,

xyyyyy

xxxxxyuvs L

ffffffff

LfLL ⋅⎥⎦

⎤⎢⎣

⎡=⋅==

00000000

(4.22)

donde la nueva matriz de interacción para llevar a cabo el control visual es:

⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢

⎣

⎡

−−−⋅−−−+⋅−−

−−+−−⋅−⋅−−

−−−⋅−−−+⋅−−

−−+−−⋅−⋅−−

−−−⋅−−−+⋅−−

−−+−−⋅−⋅−−

−−−⋅−−−+⋅−−

−−+−−⋅−⋅−−

⋅=

xxyyxxyyyy

yyxxyyxxxx

xxyyxxyyyy

yyxxyyxxxx

xxyyxxyyyy

yyxxyyxxxx

xxyyxxyyyy

yyxxyyxxxx

uv

foufovfoufovZfovZfovfoufovfouZfouZfoufovfoufovZfovZ

fovfoufovfouZfouZfoufovfoufovZfovZ

fovfoufovfouZfouZfoufovfoufovZfovZ

fovfoufovfouZfouZ

fL

/)()/)(/)(()/)((1/)(/10/)())/)((1(/)(/)(/)(0/1/)()/)(/)(()/)((1/)(/10

/)())/)((1(/)(/)(/)(0/1/)()/)(/)(()/)((1/)(/10

/)())/)((1(/)(/)(/)(0/1/)()/)(/)(()/)((1/)(/10

/)())/)((1(/)(/)(/)(0/1

4442

44

42

4444

3332

33

32

3333

2222

22

22

2222

1112

11

12

1111

Reconstrucción del movimiento de dos imágenes consecutivas.

Las características en el plano imagen en dos interaciones consecutivas, sk y sk 1+ están dadas

por puntos ( ) 4..1/, ∈iyxp iii que respecto al sistema de referencia 3D de la cámara se pueden denotar

como ( ) 4..1/,, ∈iZYXP iiii . Si además, se sabe que al moverse el efector la cámara ha experimentado

un cambio de orientación y un desplazamiento, en tal caso, la transformación a la que se han visto

sometidas las coordenadas 3D de los puntos característicos es:


-122 -

kk

kk tPRP +=+1 (4.23)

donde Pk y Pk 1+ son las coordenadas de un punto cualquiera, p , respecto al sistema de

coordenadas de los marcos de la cámara kC y 1+kC respectivamente. Además, las proyecciones de ese

punto en la imagen pk y pk 1+ satisfacen la restricción epipolar. Sin embargo, para situar todos los

puntos del mismo plano, П, en los planos imagen, se necesita una restricción adicional.

Así, si se denota por, N un vector normal al plano П con respecto a kC , y por d la distancia

del plano П al centro óptico de la cámara kC . Entonces, se tiene:

Π∈∀=⋅⇔=⋅ PPNd

dPN kkTkT ,11 (4.24)

Y sustituyendo la ecuación (4.24) en la ecuación (4.23), se tiene que:

PNtd

RP kTKk

k ⋅⎟⎠⎞

⎜⎝⎛ ⋅+=+ 11 (4.25)

Así, la matriz de homografía, Hk, depende del movimiento { }kk tR , , así como de la estructura

de los parámetros { }dN , que define el plano, П, en el espacio 3D [Yi-2004] donde están situadas las

marcas reales que serán proyectadas en el plano imagen de la cámara (Figura 4-38).

PHP kk

k =+1 (4.26)

Debido a la ambigüedad en el factor de escala que viene determinado por la distancia d en la

ecuación (4.25), la matriz de homografía que relaciona las características de dos iteraciones

consecutivas, { }4...1/ ∈= ifs ikk y { }4...1/11 ∈= ++ ifs i

kk , dependerá de un factor de escalado.

4..1/1 ==+ ksHs kk

k (4.27)

El método empleado para calcular la matriz de homografía a partir de cuatro puntos

característicos, se ha mostrado en el Anexo A.2.


-123-

Figura 4-38: Relación de Homografía entre características de dos imágenes consecutivas.

Detección de cambio de superficies.

El método empleado para estimar zonas discontinuas en superficies se realiza a partir de las

características extraídas de la imagen por parte de los datos que proporciona el sensor láser, y por otro

lado a partir de la información que proporciona el sensor de fuerza. El método que aquí se expone

[Pomares 2006b] proporciona como característica extraída, una línea en la dirección que ocurre la

discontinuidad. Aunque ambos sensores son suficientes por sí solos para detectar discontinuidades, el

empleo de los dos conjuntamente, favorece un aumento en la precisión para detectar el momento

exacto en que la discontinuidad, y por tanto el cambio de superficie se produce. Así, el método

propuesto en el Apartado 4.2.2.1, es empleado con éxito para determinar zonas de discontinuidad en

aquellos momentos en que los datos obtenidos a partir del sensor de fuerza no son lo suficientemente

robustos, y pueden provocar falsas detecciones de discontinuidad [Pomares-2006a].

El método de detección empleando patrones circulares de luz estructurada, descrito

anteriormente, permite determinar una zona de discontinuidad. En concreto, se obtiene una línea que

determina la dirección de la discontinuidad y el lugar exacto de rotura o cambio de superficie. Esa

línea se obtiene en el espacio de la imagen y se representa por 0ld. De modo que en el espacio imagen

se puede representar, por un lado la característica que define la discontinuidad detectada y por otro

lado las características extraídas de la escena y que además permiten el seguimiento mediante control-

visual basado en imagen. También, se conoce en todo momento la posición del efector que viene

kp1 k+1p1

Hk

P1 P2

P3

P4

ek ek+1 Ck

Ck+1

Ik Ik+1

x

y

z

x

y z

П


-124 -

representado en la imagen por el punto, pc. Este punto determina la posición del efector sobre la

superficie en el espacio imagen. De modo que el guiado del robot sobre la superficie se reduce a guiar

el punto, pc, en el espacio imagen.

Para reducir costes computacionales y evitar falsas discontinuidades, detectadas por el sensor

de fuerza, en zonas donde a priori se conoce que no hay cambio de superficie alguna, se procede

activando el sensor de fuerza sólo en el momento que puede ser necesario. Así, se activará el método

de detección por fuerza sólo cuando pc alcance las proximidades de la línea 0ld.

La metodología empleada para el cambio de superficie es la siguiente:

Primero se detecta la línea 0ld mediante el método comentado en el Apartado 4.3.2.1. Una vez

se ha determinado, de esta manera, una posible discontinuidad en el espacio imagen, se busca estimar

la posición de la discontinuidad en la imagen para cada una de las iteraciones, o movimientos del

robot, definidos en la imagen por la posición del efector, pc (Figura 4-39). Las estimaciones de la

posición que ocupará la discontinuidad en cada iteración quedan definidas como ild .

Para poder obtener estas estimaciones, ild , se emplean las características extraídas de la escena

y empleadas por el sistema de control visual basado en imagen. De este modo, para una cierta

iteración se conocen las posiciones actuales de dichas características, ks, y las posiciones en las que

deberían situarse, k+1s. A estas últimas se les conoce como características deseadas y se calculan a

partir de la función sd(t).

Figura 4-39: Características en la imagen empleadas para el control visual y discontinuidad en la imagen.

Y, a partir de, Hk obtenida a partir de la ecuación (4.27), se puede obtener qué rotaciones, Rk, y

desplazamientos, tk, han sido llevados a cabo por la cámara montada en el efector del robot, cuando

éste se ha movido para transformar unas posiciones de las características en otras distintas. Una vez,

obtenidas la rotación y traslación, es posible estimar la posición de la discontinuidad para la siguiente

iteración, ild, a partir de la posición de la discontinuidad en un momento dado, 0ld. Se procede de la

siguiente manera:

k+1f1

k+1f2k+1f3

k+1f40ld

pc

kf1

kf2kf3

kf4


-125-

)( 01

1 kk txRx −= − (4.24)

donde x0 y x1 indican las coordenadas de los extremos de la línea que define la discontinuidad

para la iteración 0ld y ild, respectivamente. Y dónde la rotación Rk, y desplazamientos, tk definen el

movimiento aplicado a la cámara. Una vez definidos los extremos, x1, de la línea para la discontinuidad

en la iteración, ild. se puede reconstruir la posición virtual de ésta en el plano imagen.

De este modo, y siguiendo un proceso iterativo se calcula la posición de la línea de

discontinuidad para cualquier iteración durante el seguimiento visual de las marcas { }4...1/ ∈= ifs ikk

en el proceso de guiado hasta la discontinuidad por parte del efector del robot, pc. Cuando el punto está

próximo a la línea detectada por el láser, comienzan a evaluarse los datos procedentes del sensor de

fuerza, y de esta manera, determinar con precisión la exactitud del punto en que ocurre la

discontinuidad.

Experimento.

En este experimento, se realiza el seguimiento de una superficie en el que se producen

importantes fricciones durante el proceso de seguimiento por parte del efector. En este caso, la

superficie no es curva, sino que se trata de planos que se entrecortan y con pendientes suaves pero de

orientaciones distintas. El tipo de superficie y la deformación que produce el patrón del sensor láser

sobre ésta, se puede observar en la Figura 4-40.

Figura 4-40: Superficies discontinuas.

Si se evalúan las fuerzas de interacción obtenidas mediante el sensor de fuerza cuando el

efector del robot recorre la superficie, se puede observar que empleando éste, únicamente, no sólo se

detecta la discontinuidad buscada sino que además también, zonas de falsas discontinuidades

[Pomares-2006a].

De ahí, que sea necesaria la incorporación de un nuevo sistema sensorial, como el basado en

sensor láser para no considerar las zonas de falsa discontinuidad detectadas en muchos casos, cuando

se recorren superficies y se producen fricciones importantes en el proceso. Con el método de detección

con luz estructurada se limitan las zonas en las cuales es posible que se produzca una discontinuidad.


-126 -

0 100 200 300 400 500 6000

50

100

150

200

250

300

350

400

Esto es así, porque sólo la zona de discontinuidad válida, que es la determinada por la proximidad del

efector a la línea de discontinuidad obtenida por el láser, es la chequeada por el sensor de fuerza.

De este modo, una vez la discontinuidad es detectada como la línea, ld, la rotación y traslación

de la cámara se calcula para cada iteración del bucle de control visual. Estas transformaciones

determinan así, la proyección de la línea de discontinuidad en cada iteración, ild. De modo, que

cuando la línea esté lo suficientemente cerca de la posición del efector, la detección del sensor de

fuerza tendrá lugar para determinar el punto exacto de discontinuidad. El proceso queda ilustrado en la

figura 4-41.

Figura 4-41: Zona de discontinuidad detectada mediante luz estructurada. Proceso de seguimiento llevado a cabo

a lo largo de la superficie.

En la Figura 4-41 se muestra el cálculo de la posición de la línea virtual, 0ld, durante la tarea de

control visual. La posición del efector es fija y no varía en el plano imagen porque guarda una

distancia constante a la cámara. La posición inicial de la discontinuidad detectada mediante luz

estructurada es 0ld. Las líneas denotadas por ild representan la estimación obtenida en cada iteración a

partir de las características { }4...1/ ∈= ifs ikk y { }4...1/11 ∈= ++ ifs i

kk . Finalmente, la línea, fld,

representa la línea que define la dirección de discontinuidad para la iteración en que la herramienta

situada en el efector del robot alcanza el cambio de superficie. Es en ese momento, en que los datos

procedentes del sensor de fuerza comienzan a ser analizados.

4.2.3. Comparación de los métodos de detección por segmentación y luz estructurada.

En esta Sección se pretende comprobar conjuntamente los resultados de aplicar los métodos

comentados en el Apartado 4.2. para detectar zonas de oclusión en diferentes escenas reales. Así, en la

figura 4.42 se muestran las escenas sobre la que se quiere llevar a cabo la experimentación. En la

0ld

pc

fld

ild


-127-

figura 4-42.a se observa un objeto formado por una palanca que funciona como interruptor de

conmutación, que puede estar orientada con distintos ángulos de giro y del que se quiere determinar

zonas de solapamiento. En la figura 4-42.b se muestra una llave insertada en un objeto del tipo

cerradura que a su vez se encuentra instalado en un objeto puerta. Al igual que para la figura 4-42.a, en

la figura 4-42.b, se quieren calcular las zonas de solapamiento que identifican las zonas de oclusión, y

en particular la zona de contacto que delimita la oclusión determinada por la inserción.

Posteriormente, en las figuras 4-43, 4-44 y 4-47, se puede observar la detección aplicada mediante el

método de luz estructurada comentado en el Apartado 4.2.2.1.

Figura 4-42: Escenas reales sobre las que se ha aplicado los procesos de detección.

Así en la figura 4-43.a se muestra la proyección del patrón de luz estructurada sobre la

superficie de la escena. En la figura 4-43.b, se ha extraído el contorno del patrón deformado al golpear

la superficie de los objetos en la escena. A continuación, en las figuras 4-43.c y 4-43.d se muestra las

zonas de discontinuidad que delimitan posibles oclusiones con dos ajustes poligonales de distinta

precisión.

Si se consideran los mismos objetos en la escena pero se proyecta el patrón de luz con distinto

ángulo y distinta posición espacial a la mostrada en la Figura 4-43.a como se indica en la Figura 4-

44.a, el resultado obtenido es el mostrado en la Figura 4-44.c. y 4-44.d. En este otro caso, también se

ha ilustrado el experimento con dos ajustes distintos en la aproximación poligonal.

Si ahora se procede a delimitar las zonas candidatas dónde se puede producir oclusión por

solapamiento empleando el método del Apartado 4.2.1 donde se emplea segmentación color se obtiene

el resultado que se observa en la figura 4.45. En ella se puede observar la imagen segmentada con la

detección de contornos, la aproximación de los puntos de contorno por segmentos de borde y

finalmente el análisis de los segmentos de borde para determinar si hay un cambio de superficie en

función de la colorimetría de los objetos representados. Así, en rojo se indican los segmentos donde

hay cierta discontinuidad provocada por una posible zona de oclusión por solapamiento y en azul los

segmentos de borde dónde no hay solapamiento.

b) a)


-128 -

Figura 4-43: Ejemplo de detección empleando luz estructurada.

Figura 4-44: Ejemplo de detección empleando luz estructurada con distinta posición del haz.

a) b)

c) d)

a) b)

c) d)


-129-

Y, si finalmente, se superpone la información resultante de ambos procesos sobre una misma

imagen, el resultado es la figura 4-46. La figura 4-46 permite comparar la detección de las zonas de

solapamiento con uno y otro método. De modo que uno de los métodos sirva como supervisión del

otro.

Figura 4-45: Detección de zonas candidatas de solapamiento mediante segmentación.

Figura 4-46: Comparación de la detección con ambos métodos.


-130 -

Si se repite la experimentación con luz estructurada incidiendo sobre la superficie de otro

objeto, por ejemplo el objeto llave mostrado en la figura 4-42.b, el resultado para distintos ajustes en la

aproximación es el ilustrado en la figura 4-47. En la figura 4-48, también, puede verse el resultado de

detectar posibles zonas de oclusión mediante segmentación color.

Figura 4-47: Ejemplo de detección empleando luz estructurada en el objeto ‘llave’.

Figura 4-48: Detección de zonas candidatas de solapamiento mediante segmentación.


-131-

Para finalizar se superpone la información resultante de ambos procesos sobre una misma

imagen, el resultado es la figura 4-49. Al igual que en el experimento anterior (Figura 4-46) se

compara la detección de las zonas de solapamiento con uno y otro método para que un método sirva

como supervisión del otro.

En el futuro se pretende mejorar el sistema de detección de luz estructurada incorporando otro

tipos de ajustes lineales o no lineales. E incorporar algún mecanismo que fusione los datos de uno y

otro método.

Figura 4-49: Comparación de ambos métodos de detección en el objeto ‘llave’.

El objetivo de este capítulo es realizar una planificación de las posibles posiciones y orientaciones que puede adoptar una cámara para evitar las zonas de oclusiones entre objetos. Esto se lleva a cabo extrayendo un conjunto de características en una imagen inicial, y posteriormente analizando el mapa de distancias entre éstas. Dicho mapa se obtiene retropopagando las características extraídas sobre un conjunto de imágenes virtuales construidas a partir de las transformaciones de los posibles movimientos que potencialmente la cámara puede adoptar.

5.1. Movimiento de un cuerpo rígido

Para realizar la estimación de movimiento para la minimización de oclusiones, se considera

una cámara móvil como un cuerpo moviéndose frente a un objeto. El movimiento de la cámara como

cuerpo rígido se puede especificar como el movimiento de cada uno de los puntos que forman el

cuerpo con respecto al objeto. Y a su vez, puesto que la cámara se considera un objeto rígido bastaría

especificar el movimiento de un único punto de la cámara, el centro óptico de está con respecto al

objeto. Esto es debido a que todos los puntos que constituyen el cuerpo en movimiento mantienen la

misma distancia relativa entre ellos, aunque la posición de éste varía con respecto al objeto fijo que

observa.

Figura 5-1: Movimiento de una cámara con respecto a un sistema de referencia fijo.

Si se considera 0C , las coordenadas de la cámara C en el instante i=0, y iC , las coordenadas

del mismo punto en un instante de tiempo 0>i , entonces, la transformación que sufre la cámara es:

iCTCRRT ⋅→→ 033 /: (5.1)

Si además, se desea representar el movimiento de la cámara C con respecto a un sistema de

referencia que se llamará del mundo M , por considerarse un sistema de referencia fijo, y se supone

que el movimiento de la cámara C , está definido por rotaciones CM R , y traslaciones C

M t respecto a

M en el espacio Euclídeo, definido de 33 RR → , entonces cualquier punto respecto al sistema de

( )CM

CM

CM tRT ,= ( )111 , +++ = i

ii

ii

i tRT

ZM

XM YM

ZC

ZC

XC

YC

XC

YC

Ci

Ci+1

M

Capítulo 5. Estimación de movimiento para evitar oclusiones

- 136 -

referencia de la cámara, CP , se puede especificar con respecto al sistema de referencia del mundo, con

la siguiente transformación.

),( CM

CM

CM tRT = (5.2)

CM

CCM

CCM

M tPRPTP +⋅=⋅= (5.3)

Para obtener una representación matricial de la transformación de movimiento de un cuerpo

rígido, en el espacio Euclídeo es necesario emplear una representación en coordenadas homogéneas,

añadiendo ‘1’ a las coordenadas del punto ( ) 41, RPP TCC ∈= y añadiendo la fila ( ) 4

31 1,0 Rx ∈ como

última fila de la matriz CM T . De este modo, la transformación definida en la ecuación (5.3), se puede

escribir como:

CC

MC

M

M PtRP ⋅⎥⎥⎦

⎤

⎢⎢⎣

⎡=

10 (5.4)

5.2. Espacio de búsqueda

Para realizar el estudio, se dispone de una escena estática, escena en la que están presentes 2 o

más objetos, y de una cámara que puede moverse entorno a esos objetos, de acuerdo al movimiento de

un cuerpo rígido. El objetivo en esta sección es el estudio del espacio de búsqueda que delimita las

posibles posiciones de la cámara. Cada una de estas posiciones contribuirá de distinto modo a

eliminar las zonas de oclusiones visibles en la escena, de modo que el porcentaje visible de la

superficie del objeto deseado será distinta para cada una de ellas.

Inicialmente la cámara se encuentra situada entorno en una posición inicial dada, 0C , y habrá

que determinar cual de las posibles posiciones, iC , donde 0>i es un instante de tiempo cualquiera, es

la más adecuada, para disponer la cámara en esta posición y obtener la imagen que mejor punto de

vista tenga. Considerando la imagen de mejor punto de vista aquella que minimiza la zona de oclusión,

o lo que es lo mismo maximiza la superficie visible del objeto que se está analizando.

Para evitar, la necesidad de modificar los parámetros intrínsecos de la cámara se ha optado por

mover la cámara con una planificación semiesférica. Es decir, se supone que los objetos que

constituyen la escena se encuentran en un punto que se considerará el centro de una semiesfera, y la

cámara sólo podrá situarse en posiciones, iC , que se encuentran a la misma distancia que la posición

inicial 0C . De este modo, al no variar la distancia de la cámara al objeto, r , (distancia que viene dada


- 137 -

por el radio de la semiesfera), la cámara no necesitará modificar los parámetros de su óptica para

mantener enfocado dicho objeto y por lo tanto, no se necesitará recalibrarse.

Buscando un compromiso entre velocidad computacional en el análisis de las posiciones y

precisión en la obtención de la mejor posición posible de la cámara para un determinado punto de vista

inicial, se puede variar aumentando o reduciendo el espacio de búsqueda (ver Anexo B.1.3),

planificando una superficie semiesférica discreta sobre la que se mueve la cámara con más o menos

posiciones. Cada posición de la cámara viene determinada por dos parámetros: longitud y latitud. Así,

cada posición, ( )ZYXPC ,, , viene definida por los desplazamientos en longitud respecto a la posición

inicial 0C que están determinados por un ángulo [ ]πθ 2,0∈ y por los desplazamientos en latitud

determinados por un ángulo [ ]2,0 πϕ∈ .

)(

))cos()cos()cos(

ϕθϕθϕ

senrZsen(rY

rX

⋅=⋅⋅=⋅⋅=

(5.5)

Figura 5-2: a) Planificación esférica con pasos de 10 grados para latitud y longitud respectivamente. b) Planificación esférica con pasos de latitud de 15 grados y de longitud de 20 grados.

De modo, que se puede definir cualquier posible posición que puede adoptar la cámara en su

espacio de planificación. Siendo el mayor número de posiciones aquellas que quedan definidas por, 2..0/ π=∀ iC i tomando como desplazamiento más pequeño 1 grado para longitud y latitud

respectivamente.


- 138 -

Figura 5-3: Posición de un punto P(X,Y,Z) en la semi-esfera.

5.3. Proyección en la imagen

Hasta ahora se ha visto el concepto de parámetros intrínsecos como elementos que intervienen

en el proceso de formación de la imagen, desde un punto de vista de la influencia de la óptica y del

sensor CCD de una cámara (ver Anexo A.3). Y además, se ha estudiado la transformación que sufre la

cámara, es decir cambios de orientación y posición. Transformación que influirá en el proceso de

proyección de esos puntos sobre el CCD (ver Apartado 5.1). Si unificamos ambos conceptos,

parámetros intrínsecos y transformaciones que sufre la cámara, se puede modelar la relación

geométrica existente entre cualquier punto de un objeto 3D, con coordenadas ( )ZYXP ,, referenciado

respecto al sistema de coordenadas del mundo y sus correspondientes coordenadas píxel en la imagen

adquirida por una cámara situada en una posición determinada (Figura 5-4).

Así, si K es la matriz de calibración y ésta es conocida porque la cámara ha sido previamente

calibrada y además se sabe la transformación que sufre la cámara respecto al sistema de coordenadas

del mundo ),( CM

CM

CM tRT = , entonces se puede denotar la matriz de proyección entre espacio

Euclídeo e imagen, como:

CM

e TK ⋅Π⋅=Π 0 (5.6)

Desarrollando, el valor de la matriz, eΠ , se obtiene:

[ ]0,0 [ ]0,1ϕ

θr

iC

0C


- 139 -

(5.7)

donde λ es un factor de escalado que viene determinado por la distancia Z.

De modo que el proceso de proyección en la imagen (Figura 5-4) determina la representación

de cada uno de los objetos de la escena en cada una de las imágenes que pueden ser capturadas desde

cada una de las posiciones estudiadas en la figura 5-3.

No obstante, el objetivo que se busca es determinar cuál será la proyección de un objeto en un

plano imagen, sin que se tenga la necesidad de mover la cámara a la posición adecuada. Cada una de

estas imágenes ficticias que se construirán a partir de las potenciales transformaciones que adoptaría la

cámara en caso de realizar el movimiento, se van a denominar imágenes virtuales.

Figura 5-4: Proyección en el plano imagen.

Para construir estas imágenes virtuales es necesario partir de una serie de características del

objeto que puedan ser empleadas para proyectarlas en cada una de las imágenes virtuales, y de este

modo comprobar cual es la disposición que adoptan en cada caso. Es decir, cómo estarían situadas en

cada una de las imágenes virtuales: su posición en píxeles.

⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

⋅⎥⎥⎦

⎤

⎢⎢⎣

⎡⋅

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡⋅

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡=

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡

1100100

00100001

1000

1

1333

ZYX

tRofsofsfs

vu

xx CM

CM

yy

xx θ

λ

MXM

CM T

0Π⋅K

Objeto 3D

Proyección en la imagen

Cámara

),,( ZYXPZM

YM

ZC XC

YC

C

),( yxp


- 140 -

5.4. Criterios de minimización

Para obtener la mejor posición de la cámara, se evalúan dos parámetros: distancias y áreas. Si

el objetivo es reducir las zonas o regiones de oclusión en cada una de las imágenes virtuales, interesa

que las características que representan a cada uno de los objetos en las imágenes virtuales estén lo más

separadas posibles.

*iC es )}1,(max{/ +kokodC i en imagen i (5.8)

Por lo tanto, el parámetro que se ha evaluado es el parámetro distancia entre objetos. Para

determinar la distancia entre objetos se ha empleado como parámetro de medida, la distancia entre

características extraídas para cada uno de los objetos. Así, la mínima distancia entre dos objetos

representados en el plano imagen, ok y ok+1 es aquella que minimiza la distancia entre las

características de cada objeto:

)}1,(min{)1,( +=+ kpkpdkokod (5.9)

donde ),...,( 1 knk ppkp = es el vector de características que representan el objeto ok en el

espacio imagen, y donde cada característica del objeto se define como 2),( Rvukip kiki ∈= . La

distancia se puede calcular como la longitud del segmento de línea entre dos conjuntos de

características.

Dos tipos de parámetros de medida se han considerado para calcular la distancia entre objetos:

la distancia entre centroides y la distancia entre puntos de borde. Se consideran puntos de borde

aquellos que definen el contorno del objeto.

5.4.1. Distancia entre centroides

En el espacio tridimensional, la distancia entre objetos no varía porque como se ha comentado

anteriormente (ver Apartado 5.2) los objetos no están en movimiento. Sin embargo, en el espacio

imagen, la distancia cambia porque la posición de un objeto respecto a otro depende del punto de vista

con el que la cámara captura la imagen.

El cálculo de centroides de un conjunto de objetos en el plano imagen, requiere de un proceso

de segmentación que separe, divida e identifique cada una de las regiones que determina un objeto. El

proceso de segmentación empleado se ha comentado en el capítulo anterior (ver Apartado 4.1.2).


- 141 -

Intuitivamente, es fácil comprobar que la distancia entre el centroide de dos objetos en un

espacio imagen, se reduce o aumenta conforme el punto de vista de la cámara varía. Así, un punto de

vista adecuado reduce el solapamiento visual entre los objetos, mejorando la visibilidad de estos, y un

mal punto de vista aumenta la oclusión por solapamiento reduciendo la visibilidad.

5.4.2. Distancia entre contornos

La distancia entre puntos de borde disminuye convergiendo a cero cuando un objeto ocluye a

otro por solapamiento como se observa en la figura 5-5.

Figura 5-5: Calculo de distancia entre objetos sintéticos en imágenes reales. a) Secuencia de imágenes con

movimiento de un objeto respecto a los otros. b) Objetos segmentados a partir de color y contorno y distancias computadas a partir de puntos de contorno.

Una comparación entre ambos parámetros para medir la distancia entre los objetos de la

Figuras 5-5, como distancia entre centroides y distancia entre segmentos de borde, se puede observar

en la figura 5-6.

Figura 5-6: Comparación de distancias para las imágenes mostradas en la Figuras 5-5.

a)

b)

Etiqueta de imagen Dis

tanc

ia p

unto

s de

bord

e [p

íxel

es]

Etiqueta de imagen

Dis

tanc

ia c

entro

ides

[píx

eles

] (cuadrado, triángulo)(cuadrado, triángulo)

(círculo, triángulo) (círculo, triángulo)

(círculo, cuadrado)

(círculo, cuadrado)


- 142 -

Las distancias calculadas entre puntos de contorno disminuyen y convergen a cero cuando un

objeto ocluye a otro. Sin embargo, si la distancia se calcula a partir de los centroides de las regiones-

clase obtenidas como consecuencia de un proceso de segmentación, se pueden dar situaciones de

inestabilidad porque cuando un objeto A ocluye a otro B, el objeto A que ocluye a B, modifica el

centro de gravedad del otro, B. El cálculo de puntos de contorno de un conjunto de objetos en el plano

imagen, requiere de un proceso de segmentación que identifique los segmentos de borde de cada

región que determina un objeto. El proceso de segmentación empleado se ha comentado en el capítulo

anterior.

Una vez estudiado, cómo se comportan los dos parámetros para medir la distancia entre

objetos, en imágenes reales de objetos sintéticos, se ha procedido a comprobar el comportamiento, en

imágenes de objetos reales. Así, se ha empleado una estructura que forma un montaje con tres piezas

ensambladas (Figura 5-7.b) cuyo modelo CAD se observa en la figura 5-7.a. Las imágenes

correspondientes a dicho modelo, capturadas en las mismas posiciones espaciales, se pueden observar

en la figura 5-8.a.

Figura 5-7: a) Modelo CAD del montaje de 3 piezas ensamblados. b) Imagen de cada pieza.

A continuación, en la figura 5-8 se muestran los resultados experimentales de aplicar el

proceso de segmentación color para obtener regiones de cada objeto y de este modo extraer las

b)

a)


- 143 -

características deseadas para el cálculo de distancias y la evaluación de la oclusión. Únicamente, se

consideran objetos aquellas regiones segmentadas cuyo número de píxeles superan un porcentaje

determinado de píxeles. En concreto, para el experimento mostrado se han detectado 6 regiones a

partir de 3 umbrales, 1 por cada componente de color, aunque sólo 3 han sido seleccionadas y

marcadas como objetos.

Figura 5-8: Comparación de distancias en ohjetos reales. a) Montaje de objetos ensamblados. b) Distancia entre centroides. c) Distancia entre puntos de contorno. d) Distancia considerando sólo puntos de contorno

optimizados.

Para estas regiones detectadas, se han calculado los centroides y las distancias entre ellos

(Figura 5-8.b). Además, se ha segmentado la imagen con un proceso de detección de bordes y se han

calculado las distancias entre ellos (Figura 5-8.c). Debido a la variedad de combinaciones, que se

pueden dar cuando se calcula la distancia entre contornos de distintos objetos, conviene filtrar los

segmentos detectados, extrayendo únicamente aquellos que están formados por un número

significativo de puntos de contorno. Todos aquellos contornos, que no superen un número

significativo de puntos han sido excluidos del proceso al ser considerados ruido.

Finalmente, en la figura 5-8.d se muestran las distancias calculadas entre objetos cuando sólo

se considera un conjunto de bordes optimizado. Los segmentos de borde optimizados son aquellos que

están formados por un número de puntos de borde que supera el valor de desviación típica. La

desviación típica en este caso determina la medida de variabilidad en el número de puntos, a partir del

valor medio de puntos, que definen un borde. En concreto, en este experimento, los segmentos de

borde detectados han sido 9 y 13 respectivamente, para las dos escenas de la figura 5-8. Tras filtrar

estos segmentos, para excluir aquellos que no son significativos, se han obtenido 3 y 5 segmentos,

respectivamente. De este modo, se ha reducido aproximadamente en un 60% el cálculo de distancias

entre segmentos de borde, ahorrando tiempo computacional, y mejorando la solución (ver Anexo

B.1.3).

b)a) c) d)


- 144 -

Objetos Vista 1 Figura 5-8 Vista 2 Figura 5-8

d(1,2) 208,129 (129,448) 252,621 (145)

d(1,3) 112,397 (6,403) 123,465 (4,123)

d(2,3) 96,714 (14,422) 129,176 (9,055)

Tabla 5-1: Distancias entre los objetos de la Figura 5-8, usando centroides y segmentos de contorno.

Numéricamente, se puede comprobar observando la tabla 5-1 que las distancias calculadas a

partir de los centroides se incrementan si la cámara se mueve como se indica en la Figura 5-5.

Además, analizando los datos, se puede deducir que las distancias calculadas a partir de los segmentos

de borde pueden variar ligeramente si las distancias reales entre objetos están próximas a cero. Este

hecho, puede ser debido a pequeñas inestabilidades cuando dos imágenes reales con diferentes

perspectivas de una misma escena se usan para extraer segmentos de contorno. Esto es así, porque no

siempre se detectan los mismos puntos de contorno en ambas imágenes. A pesar de ello, esto no

supone un problema para considerar la distancia entre segmentos de borde como parámetro de medida

para estimar la posición la cámara. Principalmente, el motivo es porque sólo una imagen real a partir

de una posición de inicio del espacio semiesférico de búsqueda (ver Apartado 5.2) será empleada para

extraer los segmentos de borde. Y todas las distancias calculadas serán computadas a partir de las

retro-proyecciones de esos segmentos de bordes en imágenes virtuales, construidas a partir de las

perspectivas-virtuales de cada una de las posiciones del espacio de búsqueda. En decir, resumiendo,

siempre se empleará el mismo conjunto puntos de contorno, extraídos a partir de una imagen inicial.

En definitiva, si se busca evaluar una posición subóptima de la cámara considerando medidas

de distancia entre contornos, una posible posición será toda aquella cuya proyección de perspectiva en

la imagen proporcione que las distancias entre contornos de objetos siempre sea mayor que cero; o en

su caso, que la distancia entre los contornos de dos objetos dados sea mayor que cero. Una distancia

entre contornos superior a cero, indica que no existe oclusión por solapamiento.

5.4.3. Áreas

El segundo parámetro considerado es el área de cada objeto. Se considera el área de cada

objeto, la superficie visible de cada objeto en la imagen. En el caso en que la cámara se mueva, al

contrario como ocurría en la Figura 5-5 dónde eran los objetos los que se movían y la cámara se

mantenía fija, el punto de vista de la cámara cambia provocando una nueva perspectiva y por lo tanto

una nueva proyección en el proceso de formación de la imagen. Por lo tanto, el área de cada objeto

varía (Figura 5-8). Un ejemplo intuitivo de este proceso sería observar una moneda con distintas

orientaciones, y comprobar cómo la superficie visible varía.


- 145 -

Si se busca evaluar una solución óptima para la mejor posición de la cámara considerando

medidas de áreas, la posición óptima será aquella cuya proyección de perspectiva en la imagen

maximice la suma de las áreas de cada objeto en la escena; o en su caso, maximice el área del objeto

deseado.

5.5. Proceso de minimización

Una vez se han comentado los criterios para llevar a cabo el proceso de minimización de las

oclusiones, se comenta el proceso de construcción de imágenes virtuales. Este proceso se divide en

dos etapas.

La primera de las etapas, consiste en capturar una imagen inicial, a partir de la posición inicial

de la que parte la cámara, , iC / i=0. Es en esta primera etapa cuando se somete a la imagen capturada

a una serie de procesos de extracción de características. Los procesos de extracción de características

basados en segmentación de regiones color y en segmentación de contornos de borde fueron

comentados en capítulos previos (ver Capítulo 4) [Gil-2004][Gil-2005a]. A partir de estos procesos de

extracción se obtienen coordenadas de puntos 2D en el espacio imagen.

Posteriormente, haciendo uso de la ecuación (5.4), para esa primera imagen se calculan las

transformaciones entre las coordenadas del mundo y las coordenadas de la cámara para obtener las

coordenadas 3D de cada punto en el espacio, en relación al sistema de la cámara iC . Además,

mediante el uso de la ecuación (5.7), la matriz de proyección Π, transforma puntos 3D relativos al

sistema de coordenadas de la cámara iC , a puntos 2D en el espacio imagen ( )vup , . Así, a partir de un

conjunto de puntos 2D en el espacio imagen, obtenidos a partir de un proceso de extracción de

características, y sometiendo éstos a un proceso de retro-proyección se obtiene un conjunto de puntos

3D cuya proyección en el plano imagen proporcionaría esos mismos puntos 2D. Este procedimiento

se puede obtener fácilmente, aplicando la ecuación (5.10).

iC

Mi pTKpP i++ ⋅Π⋅=Π= )( 0 , ni ..1/ = (5.10)

donde n determina una posición de la cámara dentro de un conjunto de posibles posiciones, cada una

de ellas identificada en el espacio de búsqueda mostrado en la Figura (5-3). Y dónde la matriz pseudo-

inversa de Π es la matriz Π+= Π T(ΠΠ T)-1 que verifica la siguiente propiedad ΠΠ+=I. Si se reescribe

la ecuación (5.10) en términos de homografía, se obtiene que:

ii pHP 1−= (5.11)


- 146 -

Una vez que ya han sido obtenidos los puntos 3D, a partir de las características extraídas en la

imagen, el segundo paso consiste en calcular cada una de las posibles imágenes virtuales. Éstas

definen cada una de las posibles posiciones de cámara determinadas por el espacio de búsqueda de la

figura 5-3. Para determinar, por lo tanto, las imágenes virtuales, se calculan las proyecciones de los

puntos 3D obtenidos previamente, aplicando cada una de las matrices de Homografía que definen las

transformaciones de cada posición de la figura 5-3. Cada imagen virtual está determinada por un

conjunto de puntos 2D obtenidos como resultado de aplicar a los puntos 3D una transformación

definida por una matriz de Homografía.

iiii

i pHHPHp 111

1 −++

+ =⋅= (5.12)

Así, cada posición determinada en el espacio de búsqueda tiene definida una matriz de

Homografía. Cada matriz de Homografía determina la transformación que sufre la cámara en

desplazamiento y orientación. De este modo, cada punto 3D se mapea en una imagen virtual para cada

posible posición de cámara, como se muestra en la figura 5-9.

En definitiva, el proceso de minimización consiste básicamente, en evaluar un conjunto de

transformaciones (Figura 5-10) iCM T definidas por el espacio de búsqueda de la figura 5-3. Y

posteriormente, computar todas las retro-proyecciones de un conjunto de puntos 3D para cada

transformación iCM T

Figura 5-9: Proceso de mapeado en imágenes virtuales de cada uno de un movimiento de la cámara.

Finalmente, la mejor posición de la cámara de todas aquellas que han sido definidas en la

figura 5-3, es aquella cuya matriz de transformación (o en su caso, cuya matriz de Homografía)

maximiza la distancia y las áreas de los objetos deseados en el espacio virtual de imagen. Esta

transformación se define como una matriz de perspectiva y se puede determinar a partir de las

PHp ii

11

++ =

ii pHP 1−=

1+iC

iC

iI

1+iI1+ip

ip

PMX

rθ

iii

i pHHp )( 11

1 −+

+ =

MZ


- 147 -

transformaciones de rotación iCM R y traslación iC

M t más adecuadas. Una vez que se han evaluado

todas las imágenes virtuales, y se ha determinado cual es la transformación más adecuada, la cámara

se mueve en el espacio de búsqueda, hasta adoptar la posición que permite observar el punto de vista

definido en la imagen virtual considerada más adecuada. Para comprobar el algoritmo se ha montado

una cámara sobre el extremo de un robot PA-10 de Mitsubishi.

Figura 5-10: Proceso de mapeado en imágenes virtuales de un conjunto de movimientos de la cámara.

5.6. Experimentación.

5.6.1. Imágenes virtuales a partir de datos sintéticos

A continuación, se muestra la aplicación de los dos pasos para el cálculo de imágenes

virtuales.

Ejemplo Paso 1.

En el primer paso se extraen características de la imagen. La Figura 5-11 muestra una imagen

sintética sencilla de la que se extraen los puntos 2D de contorno.


- 148 -

-1000-500

0500

1000

0200

400600

8001000

0

200

400

600

800

1000

91

9293

94 95 9697

98

99

910

911

912

81

8283

84 85 8687

88

89

810

811

812

7172

7374 75 76

777879

710

711

712

6162

6364 65 66

676869

610

611

612

5152

53 54 55 56 575859

510511

512

4142

43 44 45 46 474849

410411

412

3132

33 34 35 36 373839

310311

31221 22 23 24 2526272829

210211

212111213141516171819110111112

0 200 400 600 800 1000-101

0

100

200

300

400

500

600

700

800

900

1000 1121

31

41

51

61

71

81

91-1000

-5000

5001000

-1000-500

0500

1000

514

514.5

515

515.5

516

516.5

1112

1314 15 16

1718

19110111112

Figura 5-11: Proceso de extracción de características (Extracción de puntos 2D de contornos).

A partir de estos puntos 2D de contorno se calculan las imágenes virtuales en el paso 2,

aplicando las Homografías correspondientes para cada posición indicada en la Figura 5-12.

Ejemplo Paso 2.

Se muestra el cálculo de imágenes virtuales para distintos movimientos de la cámara (Figura

5-12): movimiento vertical (varía φ), movimiento horizontal (varía θ), y combinación de ambos.

Figura 5-12: Proceso de mapeado en imágenes virtuales de distintos movimientos.

Para cada uno de los movimientos mostrados en la Figura 5-12, se obtienen distintos tipos

imágenes virtuales. En la figura 5-13, se muestran las imágenes virtuales obtenidas a partir del

movimiento vertical de cámara mostrado en la figura 5-12.a. De igual modo, en las figuras 5-14 y 5-15

se muestran los movimientos de cámara (vertical, combinación de vertical-horizontal) mostrados en

las Figuras 5-12.b y 5-12.c respectivamente. La última imagen de las figuras 5-13, 5-14 y 5-15,

muestra la evolución de objeto al proyectarse con matrices de perspectiva distinta para cada posición

de cámara.

a) c) b)


- 149 -

280 290 300 310 320 330 340 350 360 370160

180

200

220

240

260

280

300

280 290 300 310 320 330 340 350 360 370160

180

200

220

240

260

280

280 290 300 310 320 330 340 350 360 370170

180

190

200

210

220

230

240

250

260

270

280 290 300 310 320 330 340 350 360 370180

190

200

210

220

230

240

250

260

270

280 290 300 310 320 330 340 350 360 370180

190

200

210

220

230

240

250

260

280 290 300 310 320 330 340 350 360190

200

210

220

230

240

250

280 290 300 310 320 330 340 350 360220

220

220

220

220

220

220

. 280 290 300 310 320 330 340 350 360 370

160

180

200

220

240

260

280

300

Figura 5-13: Proceso de mapeado en imágenes virtuales de un movimiento vertical dónde φ se incrementa cada 10 grados y θ permanece constante.

280 290 300 310 320 330 340 350 360 370160

180

200

220

240

260

280

300

280 290 300 310 320 330 340 350

180

190

200

210

220

230

240

250

260

270 280 290 300 310 320 330 340 350180

190

200

210

220

230

240

250

260

270 280 290 300 310 320 330 340 350 360190

200

210

220

230

240

250

260

280 290 300 310 320 330 340 350 360190

200

210

220

230

240

250

260

280 290 300 310 320 330 340 350 360

190

200

210

220

230

240

250

260

270

290 300 310 320 330 340 350 360180

190

200

210

220

230

240

250

260

270

290 300 310 320 330 340 350 360

180

190

200

210

220

230

240

250

260

290 300 310 320 330 340 350 360 370180

190

200

210

220

230

240

250

260

280 290 300 310 320 330 340 350 360 370180

190

200

210

220

230

240

250

280 290 300 310 320 330 340 350 360180

190

200

210

220

230

240

250

270 280 290 300 310 320 330 340 350 360 370

170

180

190

200

210

220

230

240

250

260

270

Figura 5-14: Proceso de mapeado en imágenes virtuales de un movimiento horizontal dónde φ permanece constante a 60º y θ se incrementa cada 30º.


- 150 -

280 290 300 310 320 330 340 350 360160

180

200

220

240

260

280

270 280 290 300 310 320 330 340 350 360 370

170

180

190

200

210

220

230

240

250

260

270

260 280 300 320 340 360 380170

180

190

200

210

220

230

240

250

260

260 280 300 320 340 360 380180

190

200

210

220

230

240

250

260

260 280 300 320 340 360 380170

180

190

200

210

220

230

240

250

260

260 280 300 320 340 360 380

180

190

200

210

220

230

240

250

260

260 280 300 320 340 360 380180

190

200

210

220

230

240

250

260

270 280 290 300 310 320 330 340 350 360 370170

180

190

200

210

220

230

240

250

260

270

270 280 290 300 310 320 330 340 350 360160

180

200

220

240

260

280

280 290 300 310 320 330 340 350 360

160

180

200

220

240

260

280

270 280 290 300 310 320 330 340 350 360160

180

200

220

240

260

280

280 290 300 310 320 330 340 350 360170

180

190

200

210

220

230

240

250

260

270

280 290 300 310 320 330 340 350 360170

180

190

200

210

220

230

240

250

260

270

270 280 290 300 310 320 330 340 350 360

170

180

190

200

210

220

230

240

250

260

270 280 290 300 310 320 330 340 350 360 370170

180

190

200

210

220

230

240

250

260

270 280 290 300 310 320 330 340 350 360 370180

190

200

210

220

230

240

250

260

270 280 290 300 310 320 330 340 350 360 370170

180

190

200

210

220

230

240

250

260

270 280 290 300 310 320 330 340 350 360 370

180

190

200

210

220

230

240

250

260

270 280 290 300 310 320 330 340 350 360 370180

190

200

210

220

230

240

250

260

270 280 290 300 310 320 330 340 350 360180

190

200

210

220

230

240

250

260

270

270 280 290 300 310 320 330 340 350 360170

180

190

200

210

220

230

240

250

260

270

280 290 300 310 320 330 340 350 360

170

180

190

200

210

220

230

240

250

260

270

270 280 290 300 310 320 330 340 350 360170

180

190

200

210

220

230

240

250

260

270

260 280 300 320 340 360 380 400150

200

250

300

Figura 5-15: Proceso de mapeado en imágenes virtuales de un movimiento horizontal dónde φ se incrementa cada 10º y θ se incrementa cada 30º.


- 151 -

5.6.2. Imágenes virtuales a partir de datos reales I.

A continuación, se muestra la misma aplicación anterior para el cálculo de imágenes virtuales

de un montaje de objetos ensamblados. Se trata de objetos reales, cuya imagen color RGB ha sido

capturada con una cámara CCD de 640x480 píxeles. El método de evaluación de imágenes virtuales

para estimar el movimiento evitando las posiciones de la cámara dónde se pueden producir oclusiones

constituye otra de las principales aportaciones de esta Tesis. Algunos de los resultados aquí

comentados y la validez del método han sido publicados en [Gil-2007a].

Ejemplo Paso 1.

En el primer paso se extraen características de la imagen. La Figura 5-16 muestra una imagen

de los objetos reales ensamblados de la que se extraen los puntos 2D de contorno. En total se han

detectado 4 contornos significativos. Se consideran contornos significativos aquellos cuyo número de

puntos superan el valor de desviación estándar medio obtenido a partir de la media de puntos de todos

los contornos.

Figura 5-16: Proceso de extracción de características (Extracción de puntos 2D de contornos).

A partir de estos puntos 2D de contorno se calculan las imágenes virtuales en el paso 2,

aplicando las Homografías correspondientes para cada posición indicada en la Figura 5-17.

Ejemplo Paso 2.

Se muestra el cálculo de imágenes virtuales para distintos movimientos de la cámara (Figura

5-17): movimiento vertical, movimiento horizontal, y combinación de ambos.

Movimiento φ θ Paso Δφ Paso Δθ

Vertical puro

[1,90º] 0º 10º -

Horizontal puro

45º [1,360º] - 30º

Horizontal puro

90º [1,360º] - 30º

Combinado [1, 30º] [1,180º] 5º 20º

Tabla 5-2: Ejemplos de movimientos planificados para el cálculo de imágenes virtuales.

1 2

3

4

a) c) b)


- 152 -

0500

1000

-1-0.500.510

100

200

300

400

500

600

700

800

900

1000

91

81

71

61

51

41

3121

11

100 150 200 250 300 350 400 450100

150

200

250

300

350

400

-1000-500

0500

1000

-1000

-500

0

500

1000706

706.5

707

707.5

708

708.5

11121314

1516

17 18 19110

111112

0 50 100 150 200 250 300 350 400 450 5000

100

200

300

400

500

600

-1000

0

1000

-1000-50005001000-1

-0.5

0

0.5

1

1.5

111213

1415

16 17 1819

110111

112

50 100 150 200 250 300 350 400 450100

150

200

250

300

350

400

450

500

550

-500

0

500

0

100

200

300

400

500

850

900

950

1000

61

6263 64 65

66

67

68

69

51

5253 54 55

56

57

58

59

4142

43 44 4546

47

48

4931

3233 34 35

3637

3839

2122 23 24 2526

2728

29111213141516171819

-50 0 50 100 150 200 250 300 350 4000

100

200

300

400

500

600

Figura 5-17: Proceso de mapeado en imágenes virtuales de los distintos movimientos que indica la tabla 5-2.


- 153 -

Ejemplo Paso 3.

Se muestra el cálculo de distancias para cada una de las imágenes virtuales y se evalúa cual de

las imágenes virtuales proporciona mejor punto de vista. Así, en la figura 5-18 se representa una

secuencia de imágenes virtuales correspondientes a un movimiento vertical puro, similar al mostrado

en la tabla 5-2. En dicha figura se han marcado en color rojo los segmentos de distancia entre los

contornos de los objetos, así como los puntos terminales (marcados en verde y azul) que definen cada

segmento de distancia.

100 150 200 250 300 350 400 450100

150

200

250

300

350

400

Figura 5-18: Calculo de distancias para secuencia de imágenes virtuales.

Los 3 objetos detectados se componen de 4 conjuntos de puntos de borde, la evaluación de las

distancias para estos conjuntos de borde se muestran en la figura 5-19. En dicha gráfica se puede

comprobar la evolución del parámetro distancia entre bordes, y como este decrece conforme el

movimiento virtual de la cámara proporciona un punto de vista peor. Como se observa para algunos

conjuntos de borde, las distancias convergen a cero, determinando la formación de una posible

oclusión.

A continuación, se muestra más en detalle el comportamiento del parámetro distancia entre

dos objetos ensamblados. Los dos objetos sometidos a estudio son aquellos cuyos bordes se

encuentran etiquetados como 1 y 4. El estudio se ha llevado a cabo, a partir del espacio de búsqueda

de un movimiento combinado (desplazamientos verticales y horizontales) como el que se muestra en

la figura 5-20. El ángulo de desplazamiento vertical varía entre [1,60º] y el ángulo de desplazamiento

horizontal lo hace entre [1,180º]. Se ha utilizado un paso de 5º para los desplazamientos angulares en

vertical, y un paso de 10º para los desplazamientos angulares en horizontal. El resultado de la

evolución que sufre el parámetro distancia entre bordes para cada una de las imágenes virtuales


- 154 -

(computadas a partir del espacio de búsqueda mostrado en la figura 5-20) puede ser observado en la

figura 5-21. En dicho gráfico se indica en rojo las zonas que indican máxima distancia y en azul las

zonas que indican mínima distancia. Una zona adecuada para posicionar la cámara será aquella cuyo

punto de vista después de evaluar la imagen virtual maximice el valor de distancia evaluado.

1 2 3 4 5 6 7 8 90

50

100

150

Dis

tanc

ia p

unto

s de

bor

de(p

ixel

s)

Etiqueta Imagen

Figura 5-19: Evaluación de las distancias entre objetos para secuencia de imágenes virtuales.

-1000-500

0500

1000

0

500

1000500

600

700

800

900

1000

121122

1231241251261271281291210121112121213

12141215

12161217

1218

11111211311411511611711811911101111

11121113

11141115

11161117

1118

1011021031041051061071081091010101110121013

10141015

10161017

1018

919293949596979899910911912913

914915

916917

918

818283848586878889810811812813814

815816

817818

717273747576777879710711712713714715716717718

616263646566676869610611612613614615616617618

515253545556575859510511512513514515516517518

414243444546474849410411412413414415416417418

313233343536373839310311312313314315316317318

212223242526272829210211212213214215216217218111213141516171819110111112113114115116117118

Figura 5-20: Posiciones virtuales que puede adoptar la cámara.

d(1,4)

d(2,3)

d(1,2), d(1,3),d(2,4),d(3,4)

Etiqueta de imagen

Dis

tanc

ia p

unto

s de

bord

e [p

íxel

es]


- 155 -

-1000-500

0500

1000

0

500

100080

100

120

140

160

Figura 5-21: Evaluación de las distancias entre objetos para cada posición virtual de la cámara.

Conviene ahora superponer el gráfico tridimensional que evalúa el comportamiento de la

distancia para cada una de las imágenes virtuales de la cámara y el espacio de búsqueda con las

posiciones tridimensionales de la cámara para cada una de esas imágenes virtuales evaluadas.

5.6.3. Imágenes virtuales a partir de datos reales II.

En este ejemplo, se muestra la evaluación de oclusiones en objetos que sin estar ensamblados

y por lo tanto sin tener superficies en contacto, presentan oclusiones en el punto de vista. Se trata de

objetos reales suspendidos en el aire, cuya imagen color RGB ha sido capturada con una cámara CCD

de 640x480 píxeles.

Ejemplo Paso 1.

Para cada una de las imágenes se ha realizado un proceso de segmentación y evaluado la

distancia entre objetos a partir de sus centros de masas y de los contornos de los objetos (Figura 5-22).

En la figura 5-23, se han calculado los histogramas bidimensionales V/S para la imágenes mostrada en

la figura 5-22a. En estos histogramas se puede observar la relación entre valores de luminancia y

valores de saturación. Los valores más bajos de saturación indican píxeles cercanas a la escala de

grises. Así, en ambos histogramas destaca un gran número de píxeles con valores de saturación bajos y

valores de intensidad pequeños. Estos valores hacen referencia al color de fondo de la imagen, cuyo

color es cercano al negro.

Zona óptima

Zona a evitar


- 156 -

Figura 5-22: a) Imagen original. b) Segmentación y extracción de centros de gravedad. c) Extracción de contornos a partir de la segmentación.

Haciendo uso de los métodos de segmentación implementados y comentados en el Capítulo 4,

se han calculados automáticamente unos umbrales de saturación e intensidad (Tabla 5-3) que en la

figura 5-23, se han marcado con líneas rojas. Estos valores de saturación e intensidad intentan

delimitar y organizar el histograma bidimensional en regiones de influencia. A continuación los

valores de saturación e intensidad que se habían calculado de modo automático por el método de

umbralización de OTSU sobre un espacio de color HSV, se filtran con la información del histograma

V/S reduciendo así, el conjunto de ellos que se emplearán para el proceso de segmentación.

Imagen matiz saturación intensidad

Obtenidos 17,55,80 58,128,172 28,135,216

filtrados 17,55,80 58 28

Tabla 5-3: Selección de umbrales críticos.

Esto permitirá que la influencia de algunos píxeles cuyos valores de saturación e intensidad,

no son adecuados porque indica la presencia de fuertes brillos o zonas de sombras no sean

considerados. Para realizar el cálculo de los umbrales de matiz se ha aplicado previamente a la

obtención de éstos, un orden lexicográfico, ordenando el matiz tomando como origen del

ordenamiento el valor de matiz rojo. De este modo se puede determinar de manera univoca la distancia

entre matices sin que se produzca ambigüedad al respecto. Los matices quedarán definidos por lo tanto

entre [1,180º] y no entre [0,360º].

Figura 5-23: Histogramas bidimensional V/S.

1

2 3

4

2 3

1

a) c) b)


- 157 -

De este modo, en la figura 5-22 se puede observar el proceso de segmentación resultante

después de haber escogido los umbrales de saturación e intensidad más adecuados. Y el cálculo de

distancias entre centros de masas y entre contornos de cada uno de los objetos presentes en la escena,

obtenidos a partir de la imagen segmentada.

Objetos Distancia centroides Distancia contornos

d(1,2) 386,65 115,57

d(1,3) 265,34 0

d(1,4) - 141,03

d(2,3) 212,14 67

d(2,4) - 4,24

d(3,4) - 81,39

Tabla 5.4: Distancias entre los objetos de la Figura 5-22 usando centroides y segmentos de contorno.

Para evaluar las distancias entre contornos de los 19 segmentos de borde detectados, sólo se

han empleado 4 segmentos de borde. Los 19 segmentos se han extraído, inicialmente empleando un

operador de Canny con umbrales entre 0.1 y 0.22, y un valor de 1. Posteriormente se han unido los

puntos de contorno mediante segmentos, descartando todos aquellos contornos que tengan menos de

10 píxeles. Finalmente, los segmentos detectados se reducen a un conjunto de segmentos

significativos, que son los mostrados en la Figura 5-24. Considerando como significativo todo aquel

que está compuesto por un número de puntos de contorno que superen la desviación estándar.

Figura 5-24: Filtrado de segmentos de contorno significativos.

Ejemplo Paso 2.

A continuación, se muestra el cálculo de imágenes virtuales a partir de los datos reales

obtenidos en la figura 5-24, para distintos movimientos de la cámara (Figura 5-25). En este caso para

un movimiento vertical y un movimiento combinado (Tabla 5-5).

4

2 3

1


- 158 -


Vertical puro

[1,90º] 0º 10º -

Combinado [1, 30º] [1,180º] 10º 20º

Horizontal puro

0º [-45,45º] 5º -

Tabla 5-5: Ejemplos de movimientos planificados para el cálculo de imágenes virtuales.

0500

1000

-1-0.500.510

100

200

300

400

500

600

700

800

900

1000

91

81

71

61

51

41

3121

11

Figura 5-25: Proceso de mapeado en imágenes virtuales de los distintos movimientos que indica la tabla 5-5.

Ejemplo Paso 3.

Y para finalizar, se muestra el cálculo de distancias para cada una de las imágenes virtuales y

se evalúa cual de las imágenes virtuales proporciona mejor punto de vista. Así, en la figura 5-26 se

representa la misma secuencia de imágenes virtuales correspondientes a un movimiento vertical puro.

Del mismo modo, la figura 5-27 muestra la evaluación de distancias para un movimiento horizontal,

cuyos parámetros se han definido en la tabla 5-5.

Como se puede observar, en la figura 5-27, un movimiento negativo mejora el punto de vista

de la cámara, reduciendo las distancias y evitando las oclusiones. Sin embargo, un movimiento

positivo en sentido contrario empeora las distancias pudiendo provocar oclusiones. Por otro lado, en la


- 159 -

figura 5-26, si se evalúa el decrecimiento de las distancias entre bordes se podría determinar que el

giro vertical estudiado siempre empeoraría el punto de vista de la cámara.

Figura 5-26: Calculo de distancias para movimiento vertical [1,90].

Figura 5-27: Calculo de distancias para movimiento horizontal [-45,45].

d(1,4)d(1,2)

d(2,4), d(1,3)

d(3,4)

d(2,3)

Etiqueta de imagen

Dis

tanc

ia p

unto

s de

bord

e [p

íxel

es]

d(1,4)d(1,2)

d(2,4), d(1,3)

d(3,4)

d(2,3)

Etiqueta de imagen

Dis

tanc

ia p

unto

s de

bord

e [p

íxel

es]


- 160 -

De estos dos experimentos mostrados en los Apartados 5.6.2 y 5.6.3 se puede concluir que el

método de imágenes virtuales permite determinar si el movimiento que realizaría una cámara que

observa una escena provocará o no oclusiones en futuras imágenes. La mejora que aporta el método

radica en la posibilidad de evaluar una nueva posición de la cámara sin necesidad de mover ésta hasta

dicha localización. Esto conlleva una reducción en los tiempos de computación (ver Anexo B.1.3).

Así, por ejemplo para el experimento presentado en la Figura 5-16, en el cual se evalúa un movimiento

vertical puro (Tabla 5-2) como el mostrado en la Figura 5-17 que consta de 10 imágenes virtuales, los

tiempos de computo son: 3.926segundos para la extracción de características y cálculo de distancias en

la imagen capturada (Tabla B-7) más 2.554 segundos para generar y evaluar todas y cada una de las

imágenes virtuales (Tabla B-9), es decir un total de 6.48segundos. Si se hubiera optado por evaluar las

posiciones de la cámara llevando la cámara hasta cada una de las posiciones evaluadas en el

movimiento vertical puro (Tabla-2, Figura 5-17), la estimación de coste computacional vendría dado

por 3.926 segundos multiplicados por las 10 posibles posiciones, 39.26segundos. Además a esos

39.26segundos habría que añadir el tiempo que tarda el robot en posicionar la cámara en la

localización espacial.

5.6.4. Otros ejemplos.

Para finalizar este capítulo, se ilustra un último ejemplo en el cual se busca eliminar las

oclusiones en el punto de vista a partir del estudio de una trayectoria horizontal. Al igual que en casos

anteriores se parte de imágenes color RGB capturadas con una cámara CCD de 640x480 píxeles. Los

objetos de la escena han sido suspendidos en el aire, y están situados en diferentes planos, para ilustrar

mejor el problema de las oclusiones por solapamiento de punto de vista.

Inicialmente, se va a partir de una la imagen mostrada en la figura 5-28.a, dando por supuesto

que se ha capturado desde la posición inicial de la cámara. Como se puede observar existe oclusión

por solapamiento entre los tres objetos situados en la imagen.

En este experimento, se procederá de modo similar siguiendo los mismos pasos que se han

llevado a cabo en el Apartado 5.6.1, con la salvedad que para evaluar las distancias entre objetos se

emplea como características los centros de masas.

Primero, se extraen las características de la imagen inicial como se muestra en la Figura 5-28.

Es decir, tras una segmentación color se extraen los centroides de los objetos representados y los

puntos 2D de contorno. En total se han detectado 3 objetos significativos. Se consideran objetos

significativos aquellos cuya área supera un 10% del área de todos los píxeles que forman la escena, sin

considerar el objeto de mayor número de píxeles que será considerado fondo. Se procederá de esta

manera siempre que los objetos se localicen sobre un fondo uniforme y con cierta homogeneidad.


- 161 -

Figura 5-28: a) Imagen original. b) Segmentación y extracción de centros de gravedad. c) Extracción y filtrado de contornos a partir de la segmentación.

Ahora, las imágenes virtuales se calculan a partir de los puntos 2D que se habían obtenido a

partir de las características extraídas de los objetos segmentados en la imagen (Figura 5-28). Al igual

que en casos anteriores, se calculan las Homografías correspondientes para cada posición del

movimiento planificado y se evalúan las distancias entre los centros de masas en cada una de las

imágenes virtuales obtenidas. Así, si se compara la evolución de la distancia entre objetos para las

imágenes virtuales (Figura 5-29), y para las imágenes reales que se obtendrían del análisis del mismo

movimiento (Figura 5-32), se observa que la proyección puede ser una interesante metodología para

analizar el movimiento de una cámara evitando la captura de imágenes en posiciones cuyo punto de

vista puede provocar oclusiones no deseadas.

Para este ejemplo, se ha analizado un movimiento horizontal, en el que la cámara se desplaza

paralela al suelo siguiendo una trayectoria circular entorno a la escena que se quiere capturar. El

movimiento analizado es el indicado en la tabla 5-6.


Horizontal puro

90º [-45,45º] - 5º

Tabla 5-6: Parámetros del movimiento planificado para el cálculo de imágenes virtuales.

Si se calculan las distancias entre características en cada una de las imágenes virtuales, se

obtiene la gráfica de la figura 5-29. En ella se observa como el valor de la distancia aumenta conforme

empieza a desaparecer la oclusión. Es decir, cuando la cámara se mueve en un movimiento horizontal

hacia la izquierda [0,-45º] o hacia la derecha de [0,45º].

2 3

1

a) c) b)


- 162 -

Figura 5-29: Cálculo de distancias para secuencia de imágenes virtuales.

En la figura 5-30 se pueden observar las imágenes virtuales obtenidas a partir de la simulación

del movimiento de la tabla 5-6, cuyos valores de distancia se analizan en la figura 5-29.

Figura 5-30: Proceso de mapeado en imágenes virtuales del movimiento horizontal indicado en la tabla 5-6.

Para certificar realmente, que la evaluación de distancias en imágenes virtuales permite

determinar las posiciones de la cámara que no son adecuadas para la captura de imágenes, y permite al

mismo tiempo determinar un posible movimiento de la cámara que mejore el punto de vista, se ha

realizado el movimiento de la cámara montándola en el extremo de un robot manipulador Mitsubishi

PA-10. Las imágenes reales capturadas en las posiciones inicial y final de la cámara, si se lleva a cabo

un movimiento entre [0,90º] se muestran en la figura 5-31.

d(1,3)

d(2,3)

d(1,2)

Etiqueta de imagen

Dis

tanc

ia p

unto

s de

bord

e [p

íxel

es]


- 163 -

a)

Figura 5-31: a) Imágenes capturadas desde las posiciones inicial y final de la trayectoria evaluada para comprobar la validez del método. b) Sistemas de referencia empleados.

Figura 5-32: Evolución de distancias para secuencia de imágenes reales (Figura 5-31).

d(1,3)

d(2,3)

d(1,2)

Etiqueta de imagen

Dis

tanc

ia c

entro

ides

[píx

eles

]

XM YM b)

CM T

ZM

M

COT

YC

ZC

XC

C

OYO

ZO


- 164 -

Si ahora, se observa la gráfica (Figura 5-32) calculada a partir de las distancias entre los

objetos en el movimiento real de la cámara, montada sobre el robot PA-10, cuyas imágenes inicial y

final se muestran en la figura 5-31, se puede comprobar la evolución del parámetro distancia y cómo

éste aumenta conforme la oclusión comienza a desaparecer. Además se puede observar cómo con el

movimiento mejora la visibilidad entre los objetos etiquetados como 1 y 3, ya que aumenta

considerablemente la distancia entre ellos. La distancia entre los objetos etiquetados como 2 y 3

permanece prácticamente constante. Se puede afirmar, por lo tanto, que no se produce una mejora ni

empeoramiento en el punto de vista.

Finalmente, observando la evolución de las distancias de los objetos etiquetados como 1,2,

también se produce poca variación en la distancia. El problema radica, en que al verse ocluido el

objeto varía el centro de masas dando una falsa impresión. En tal caso, para comprobar que se ha

producido una oclusión, se habrá de estudiar, la evolución de las áreas de los objetos detectados

(Figura 5-33).

Figura 5-33: Evolución de áreas para secuencia de imágenes reales.

De modo que cuando la distancia entre objetos aumenta, es que mejora el punto de vista,

cuando la distancia entre objetos disminuye empeora el punto de vista, y cuando la distancia entre

objetos se mantiene constante es necesario observar la evolución de las áreas de las regiones de dichos

objetos. Así para el caso, de los objetos etiquetados como 1 y 2, se puede observar como el área del

objeto 1, varía poco en relación a su valor, sin embargo la del objeto 2 varía en área en casi el 50% de

su valor. Indicando que en este caso, a pesar de que las distancias entre centroides permanecen

constantes, el objeto 1 solapa el punto de vista del objeto 2 en un parte del movimiento. Por el mismo

a(3)

a(1)

a(2)

Etiqueta de imagen

Dis

tanc

ia p

unto

s de

bord

e [p

íxel

es]


- 165 -

motivo, se estudia la distancia entre los objetos 2 y 3 (Figura 5-33) y se observa que también es

constante. Sin embargo, la evaluación de las áreas en este caso indica que mientras el área del objeto 2

decrece, la del objeto 3 aumenta, lo que no puede indicar que el objeto 3 ocluya parte del objeto 2,

porque de ser así el área de 3 permanecería constante. De ahí se deduce que es el objeto 1 quien ocluye

al objeto 2, y que el aumento del área en el objeto 3 simplemente se debe a una mejora en el punto de

vista permitiendo ver porciones que ocultaba el propio objeto por su geometría. Sin embargo, en las

imágenes virtuales esta situación en la que aparece información (características, áreas, etc.) nueva que

antes no era visible nunca se podrá dar, ya que todo el proceso se lleva a cabo a partir de una única

vista inicial, es decir a partir de una única imagen capturada. Sería necesario incorporar un modelo o

información de los objetos, a los que se está aplicando el proceso de estimación de movimiento, para

poder considerar la posibilidad de introducir características que desde el punto de vista inicial de la

cámara no eran visibles.

En este capítulo se presenta una forma de mejorar el punto de vista de una cámara que observa un objeto, cuando la presencia de oclusiones no es debida a un solapamiento entre objetos, sino únicamente a una perspectiva inadecuada que reduce el área visible del objeto debido a su propia geometría. El método expuesto para solucionar el problema se basa en la búsqueda de la posición de ortogonalidad de la cámara.

6.1. Planteamiento inicial

En los apartados anteriores del Capítulo 5, se ha presentado una metodología eficaz para

determinar la posición óptima de la cámara a partir de un espacio de prebúsqueda de posibles

posiciones formado por una semiesfera. Ahora se quiere modificar el planteamiento inicial,

presentando una segunda metodología con una base matemática similar pero con un enfoque distinto

basada en la corrección del movimiento.

La finalidad de esta segunda metodología es doble:

• Por un lado, evitar los procesos de segmentación y de extracción de características de

borde que suponen tiempo computacional, y que obligan a trabajar en el caso anterior con

imágenes color, y en algunos casos pueden verse sometidas a procesos de ruido por

iluminación, falta de precisión en la detección, etc.

• Por otro lado, aumentar la velocidad de cómputo evitando chequear todo el espacio de

prebúsqueda, formando todas las posibles imágenes virtuales y la evaluación de éstas.

Por contrapartida, las desventajas con las que esta técnica se enfrenta son:

• Se necesitan al menos partir de dos imágenes captadas por la cámara, frente a una única

imagen en la metodología anteriormente comentada. Una de ellas será la imagen capturada

desde la posición inicial de la cámara, y otra imagen será la imagen que sería capturada en

la posición deseada de la cámara. Esto obliga a tener conocimiento a priori del objetivo

buscado, en términos de imagen objetivo.

• Igualmente necesita de la extracción de características, pero en este caso en dos o más

imágenes. Y adicionalmente en esta metodología es necesario aplicar un proceso de

correspondencia por correlación entre características extraídas a partir de las imágenes.

Esto significa, que aunque el tiempo de extracción de características es más rápido, porque

se emplean mecanismos de procesamiento en imágenes en escala de grises, es necesario

hacerlos en varias imágenes. Además, la necesidad de comparar imágenes fija

limitaciones, ya que existe cierta dependencia en que ambas imágenes tienen que tener

vistas similares, para que el proceso de correspondencia entre las características extraídas

en ambas sea robusto.

Capítulo 6. Estimación de movimiento para mejorar el punto de vista

- 170 -

En el caso anterior, se ha empleado un enfoque que buscaba evitar las oclusiones para no

producir puntos de vista de la cámara no deseados. La principal ventaja era que partía de un

desconocimiento del objeto u objetos mostrados en la escena. Ahora, el enfoque es distinto y la

metodología también, aunque la base matemática que representa el movimiento de la cámara, la

proyección en la imagen es la misma. Si antes, se construían imágenes virtuales a partir de una imagen

real inicial y un conjunto de posibles movimientos de la cámara, para posteriormente hacer un estudio

de estas imágenes virtuales, ahora lo que se quiere es reconstruir un movimiento de cámara entre

imágenes reales.

En este caso, por lo tanto se busca eliminar oclusiones, pero se parte de información a priori de

cómo evitar esa posible oclusión. Esa información no es más que la imagen ideal o imagen objetivo

que se capturaría desde una posición de cámara que proporcione un punto de vista subóptimo. Si se

consideran varios posibles puntos de vista como subóptimos, bastaría almacenar la imagen capturada

para cada uno de ellos. Además, el tipo de oclusiones que se buscan eliminar están más relacionas con

las oclusiones provocadas por la misma naturaleza del objeto. Esto subyace en el hecho de que una

porción de un objeto ocluye parte de otra del mismo objeto, o el hecho de que el punto de vista de la

cámara limita la visibilidad de otras regiones de un mismo objeto. El enfoque y la finalidad son

distintos a los mostrados en el capítulo 5.

Así, en este capítulo se presenta un enfoque para conseguir el mejor punto de vista para que

una cámara montada en el extremo de un robot pueda adquirir una mejor imagen mejorando el proceso

de reconocimiento del objeto u objetos visibles. En este caso, se ha partido de la premisa inicial de que

el mejor punto de vista para una cámara es aquel que proporciona la mayor área visible de la superficie

del objeto que se quiere emplear en el proceso de reconocimiento. Además, generalmente, la mayor

superficie visible siempre se suele conseguir situando la cámara ortogonalmente al plano en el que se

sitúa el objeto. Es decir, se busca conseguir que el eje óptico de la cámara sea lo más perpendicular a

la superficie del objeto que se quiere capturar.

6.2. Detección de características

Algunos de los métodos de reconocimiento de objetos existentes en la literatura, y

principalmente todos aquellos que se basan en la geometría y en la apariencia del objeto, no funcionan

bien por la falta de generalidad y la dificultad de aprendizaje. Cuando se pretende detectar objetos a

partir de su geometría se necesita de modelos previamente almacenados en una base de datos. Estos

modelos además requieren de primitivas geométricas sencillas si se quiere conseguir un nivel de

aprendizaje eficaz. Y por consiguiente, requieren de diferentes descriptores, grafos, secuencia de


- 171 -

contornos, etc. que permitan definir cada primitiva geométrica. Por otro lado, los métodos basados en

apariencia requieren de un conjunto grande de imágenes de aprendizaje por cada objeto, tomadas

desde distintos puntos de vista, y en diferentes condiciones de escala y de iluminación, etc. Este tipo

de métodos suele ser sensible en algunos casos a oclusiones parciales de objetos desconocidos y se

necesita que las imágenes empleadas en el aprendizaje, se hayan adquirido en las mismas condiciones

que las imágenes que se adquieren en la etapa de reconocimiento. En el Capítulo 4, ya se abordó una

aproximación para detectar las oclusiones, y en el Capítulo 5 se han proporcionando posibles

soluciones para evitarlas a la hora de posicionar la cámara, cuyo objetivo es evitar la captura de

imágenes en localizaciones no deseadas.

Algunos de estos tipos de métodos, tanto basados en características geométricas como los

basados en apariencia se han mostrado y comentado en los Capítulos 2 y 3. Como trabajos previos a la

realización de esta Tesis, el autor colaboró en la realización de algunos experimentos de

reconocimiento de objetos con características geométricas e invariantes proyectivos en [Vicente-

2002].

En este capítulo 6, las características que definen un objeto en la imagen son características

locales. La metodología empleada para la extracción de estas características locales puede ser

consultada en el anexo A de esta Tesis doctoral. En particular se han empleado algunos métodos de

extracción de características [Harris-1988] que ya fueron empleados en otros trabajos del autor de esta

Tesis [Vicente-2002].

6.3. Análisis de correspondencias

Una vez se han extraído las características geométricas, por ejemplo puntos esquina en cada

una de las imágenes que se quiere comparar, se requiere de un proceso que permita identificar qué

características extraídas en una imagen equivalen a las mismas características en la otra imagen, en el

sentido de establecer puntos característicos en ambas imágenes que correspondan al mismo punto en el

espacio Euclídeo. Para llevar a cabo ese proceso de comparación se emplea un método de

correspondencia, ‘matching’ en la literatura anglosajona basado en un proceso de correlación entre

píxeles de ambas imágenes.

El proceso de correspondencia aquí empleado primero preprocesa las imágenes mediante un

filtro de media que permita suavizar las imágenes compensando la diferencia de luminancias que

pueda haber entre imágenes, y permitiendo así facilitar el proceso de correlación.

Una vez suavizadas ambas imágenes, para cada punto característico en la primera imagen se

extrae una ventana de datos y se lleva a cabo una correlación cruzada normalizada con una ventana de


- 172 -

vecindad entorno a la misma posición en la segunda imagen. Así, se denota a la primera imagen como

)(1 xI , a la segunda imagen como )(2 xI , y se denotan como )~(1 xI e )~(2 xI a dos regiones no uniformes

de ambas imágenes, respectivamente. Además se denota como )(~ xWx ∈ a una ventana que define un

entorno de vecindad, siendo )(xWn = el número de píxeles de la ventana que delimita ese entorno de

vecindad. Entonces, la correlación cruzada normalizada (CCN) se puede calcular de la siguiente

manera.

∑ −+∑ ⋅−

∑ −+⋅−=

∈∈

∈

)(~2

22)(~

211

)(~ 2211

))~(())~((

))~(())~((

xWxxWx

xWx

IdxIIxI

IdxIIxICCN ))

))

(6.1)

∑=∈ )(~ 11 )/)~((

xWxnxII

)

∑=∈ )(~ 22 )/)~((

xWxnxII

)

(6.2)

donde 1I)

e 2I)

son las medias de intensidad y donde dx +~ determina el entorno de vecindad de

distancia d centrado en x~ .

A continuación, se buscan los puntos en la primera imagen que corresponden a puntos en la

segunda imagen utilizando la correlación cruzada normalizada (CCN) y buscando cuando se hace

máxima. Se repite el proceso pero en sentido contrario, es decir se buscan los puntos en la segunda

imagen que corresponden a puntos en la primera imagen calculando la correlación cruzada

normalizada para estos casos, y al igual que en el caso anterior se busca cuando se hace máxima.

Posteriormente, se extraen únicamente aquellas correspondencias que son consistentes en ambos

sentidos de procesamiento. Por norma general, se suele emplear una ventana de vecindad de entre 5x5

y 21x21 [Yi-2004], en este caso se ha empleado una ventana de 11x11. A mayor tamaño de ventana se

incrementa la robustez en el cálculo de correspondencias pero aumenta el coste computacional y se

pueden incrementar las falsas correspondencias, también conocidas como ‘outliers’.

6.4. Recuperación y corrección del movimiento

Si lo que se desea es conseguir que la cámara adquiera una imagen ortogonalmente como la

mostrada en la figura 6-1, matemáticamente se procede buscando la relación existente entre la imagen

que se desea (Figura 6-1.a) y la imagen que se captura desde la posición arbitraria en la cual la cámara

esté situada (Figura 6-1.b). En las pruebas siempre se ha partido que la cámara se sitúa en una posición

arbitraria dentro de la esfera distinta a la posición deseada (ver Figura 5-2, en capítulo anterior). La


- 173 -

relación entre dos imágenes viene determinada o bien por la Homografía (Anexo A.2) en el caso de

objetos planos o bien por la matriz Fundamental [Hartley-2003] en el caso de objetos tridimensionales.

En este caso se ha empleado la matriz de Homografía. La matriz de Homografía permite mapear

características de una imagen en la otra imagen siempre que estas características se encuentren en el

espacio 3D de la escena en un mismo plano (Figura 6-2). De modo que la matriz de Homografía

almacena el movimiento proyectivo entre dos vistas. La figura 6-3 muestra la relación entre una

imagen ortogonal y una imagen tomada a partir de una posición cualquiera del espacio de búsqueda

semiesférico.

A continuación se muestran las imágenes tomadas en distintas posiciones de la cámara de un

objeto (Figura 6-1). En este caso se había escogido la portada de un libro para asegurar que las

características están en un mismo plano 3D, y los cambios de luminancia de los dibujos de la portada

aseguran que se pueda extraer un mínimo adecuado de características. Las características interesa que

estén distribuidas sobre la superficie del objeto en la mayor medida posible, para que la Homografía

mida el movimiento sobre todo el objeto y no sobre una porción local de éste. Además, se necesitan un

cierto número de características para que la matriz de Homografía calculada no se vea sometida a

ciertas singularidades o se degenere no siendo adecuada para el cálculo del movimiento. Aunque se

puede calcular la Homografía a partir de 4 características en un plano, de las cuales nunca puede haber

más de 2 colineales, pertenecientes a una misma recta del plano, esto funciona bien para puntos

sintéticos pero no cuando se trabaja con imágenes de objetos reales. La principal razón es que escoger

4 puntos que cumplan estas características y que se mantengan en cualquier vista capturada por la

cámara, además de mantener las mismas características de luminancia en su entorno de vecindad, se

hace difícil. Esto es así, porque la iluminación varía en función del punto de vista de la cámara. De ahí

que se necesite un conjunto de puntos característicos más amplio.

La metodología empleada es la siguiente:

• Extraer características mediante un detector de esquinas rápido y robusto. En este caso se ha

empleado el detector de Harris (Anexo A.1). Se extraen características en la imagen capturada

a partir de la posición en la que se encuentra la cámara, y en la imagen deseada (en esta última

se podría tener almacenado el conjunto de características en vez de la imagen como dato

previo) (Figura 6-2).

• A continuación, y debido a que se pueden detectar esquinas distintas se aplica un proceso de

correspondencia entre ambas imágenes, para eliminar las características espurias que no se ven

representadas en la imagen deseada tomada como modelo. La correspondencia se realiza

mediante un proceso de correlación entorno a una ventana de vecindad de los puntos, en busca

de similitud en características de intensidad. En las pruebas se ha empleado una ventana de

correlación de 11 píxeles de vecindad (Figura 6-3.a).


- 174 -

• Después, se calcula la Homografía entre las dos imágenes (Figura 6-3.b). En este caso se ha

escogido el método de RANSAC porque es robusto y porque permite desechar datos espurios

(Anexo A.2).

• Posteriormente, se pasa a comprobar si la matriz de Homografía obtenida no es singular, es

degenerada o proporciona valores incorrectos de mapeado. Midiendo el error de mapeado

entre las imágenes.

• Una vez se ha calculado la Homografía H que relaciona la imagen capturada por la cámara en

la posición en la que se encuentra, y la imagen que se obtendría en la posición deseada, se

procede a desacoplar la Homografía para tratar de recuperar el movimiento Euclídeo realizado

que realizaría la cámara entre esas dos imágenes.

• Finalmente, se filtra entre las múltiples soluciones que proporciona el desacoplo de H y se

escoge la más adecuada, o la que más se acerca a alguna restricción espacial.

En la figura 6-2.a, imagen deseada, se han extraído 149 características, frente a 185 obtenidos

en la imagen mostrada en la figura 6-2.b, imagen para ser evaluada. Después de someterlas a un

proceso de correspondencia, tomando una ventana de 11 píxeles, y un parámetro de distancia de

similitud de 50, se han obtenido 105 correspondencias (70% de las características de la imagen

deseada) (Figura 6-3.a). La Homografía mediante RANSAC reduce a 73 las correspondencias útiles

par calcular la Homografía (Figura 6-3.b), es decir el 49% de las características detectadas son validas

para el cálculo de la Homografía.

Figura 6-1: Movimiento vertical.

Una vez se ha calculado la Homografía entre la vista deseada y la vista actual, que es capaz de

capturar la cámara en un instante de tiempo determinado, se comprueba la validez de ésta empleando

la metodología mostrada, más adelante (Apartado 6.5). Si la matriz es valida, se recupera el

movimiento Euclídeo, implementando los desarrollos matemáticos comentados en [Faugeras-1988].


- 175 -

Figura 6-2: Extracción de características mediante detector de esquinas de Harris.

Figura 6-3: a) Correspondencia por correlación. b) Filtrado por RANSAC para el cálculo de la homografía.

La matriz de Homografía que relaciona ambas vistas, está a su vez relacionada con los

parámetros geométricos del movimiento de la cámara respecto a los puntos 3D de la portada del libro.

Esto es así, porque todos los puntos 3D de la portada de libro están situados en un mismo plano Π.

Dicho plano está definido por un vector normal a su superficie, N , y por la distancia a la cámara en la

posición inicial en la que se tomó la primera imagen, d .

dcZbYaXPn =++=⋅0 (6.3)

Si se aplica el mismo proceso matemático descrito en el Apartado 4.2.2.2 del Capítulo 4 y se

restringe a dos vistas, se obtiene:

PNtd

RP T 10 1⋅⎟⎠⎞

⎜⎝⎛ ⋅+= (6.4)

Calculando, para este ejemplo ilustrativo, la matriz de Homografía se obtiene:

a) b)


- 176 -

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡

−−−−

=1000526.0000016.0502302.25227179.1001628.0757364.67198877.0180937.1

H

(6.5)

Si, además se parte de una cámara previamente calibrada de la que se conocen sus parámetros

intrínsecos, y por consiguiente su matriz de calibración K (Anexo A.3); entonces se pueden desacoplar

éstos de la matriz de Homografía, haciendo que la matriz de Homografía ya no dependa de los

parámetros intrínsecos de la cámara empleada.

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡

−−== −

151199.1427607.0013195.0004192.0069934.1003215.0

003437.0001825.0186982.11' HKKH

(6.6)

Finalmente, se extrae el movimiento Euclídeo de la cámara como se indica en los trabajos de

[Faugeras-1988]. Para extraer el movimiento, la matriz de Homografía calculada por la ecuación (6.6),

se desacopla mediante descomposición SVD. Así, la matriz de Homografía se puede reescribir como

el producto de una matriz diagonal, D, y dos matrices ortogonales, U y VT.

IVVUUUDVH TTT === /' (6.7)

Los elementos de la matriz diagonal, D, son raíces cuadradas de los valores propios de HHT.

Estos valores propios di son positivos y se pueden ordenar decrecientemente, d1≥ d2≥ d3. A partir de la

descomposición indicada en la ecuación (6.7) se puede comprobar que la matriz diagonal se puede

reescribir como:

TNtRdD '''' ⋅+⋅= (6.8)

donde la relación existente entre la rotación, la traslación y el vector normal al plano de la

ecuación (6.4), { }NtR ,, viene dada por:

)det()det(

'

'

'

'

VUsdsd

nVn

tUt

VRUsR T

⋅=⋅=

⋅=

⋅=

⋅⋅⋅=

(6.9)

Considerando la base canónica, y escribiendo 332121' exexexn ++= , la ecuación (6.8) se puede

reescribir como:

3,2,1

'''

=⋅+⋅⋅=

ixteRded iiii

(6.10)


- 177 -

Si además se considera que los vectores normales tiene una norma unitaria y que V es

ortogonal, entonces eliminando t’ y haciendo que R’ preserve la norma del vector, se obtiene el

siguiente sistema de ecuaciones:

0)()(

0)()(

0)()(

21

23

2'23

21

2'

23

22

2'22

23

2'

22

21

2'21

22

2'

=⋅−+⋅−

=⋅−+⋅−

=⋅−+⋅−

xddxdd

xddxdd

xddxdd

(6.11)

A partir del sistema lineal de la ecuación (6.11) se pueden obtener diferentes casos

(soluciones) en función de la multiplicidad de valores singulares distintos, di, correspondientes a la

Homografía H. Considerando únicamente, los casos para los cuales el sistema tiene solución. Es decir,

2 o 3 valores singulares distintos, se obtiene:

)()(

0)()(

23

21

23

22

3

2

23

21

22

21

1

dddd

x

xdddd

x

−

−=

=

−

−=

(6.12)

Posteriormente, a partir de la ecuación (6.12) y en función del signo de d’ y el signo de las

matrices de rotación R’ se pueden computar todas las posibles soluciones, como indica Faugeras en

[Faugeras-1988]. En general, se obtienen ocho posibles soluciones, cuando los valores singulares de la

matriz de Homografía son distintos. Se obtienen cuatro posibles soluciones, cuando hay dos valores

singulares iguales. Y se obtiene indeterminación en el movimiento cuando los tres valores singulares

son iguales. Cuando hay ocho posibles soluciones, sólo hay dos soluciones físicas posibles. Y cuando

hay cuatro posibles soluciones, hay una única solución física posible capaz de interpretar el

movimiento producido por la cámara.

En caso de obtener más de una solución física posible, se estudia el movimiento para

adecuarlo a las restricciones espaciales existentes en la escena de trabajo. Para este ejemplo ilustrativo,

mostrado en la figura 6-4, la matriz de la ecuación (6.4) proporcionó 8 soluciones, y después de filtrar

estas en función de las restricciones espaciales de la cámara, el resultado obtenido fue un vector de

desplazamiento de (0.00868, -0.361171, -0.038391) metros y unos ángulos de giro de (21.31º, 0.63º,

0.19º).

Para filtrar las dos soluciones físicas posibles se puede proceder de varias maneras. Por

ejemplo se puede incorporar información de puntos en un segundo plano distinto al del libro

(plano,Π). De este modo se comprueba cual de los dos movimientos { }tR, definidos por las dos

posibles soluciones permiten transformar los dos planos correctamente. Así, el problema se reduce a


- 178 -

una única solución valida. Otra opción es incorporar a priori conocimiento geométrico de la escena.

Por ejemplo, dos líneas ortogonales en el plano, Π, como se ha hecho en este caso. En tal caso, el

movimiento dado por la solución correcta tiene que mantener las restricciones geométricas impuestas.

Figura 6-4: a) Análisis del error de mapeado para H estimada. b) Movimiento Euclídeo calculado a partir de H.

Si se analiza el resultado, el giro en x obtenido es de 21.31º frente a los 20º que se había rotado

el extremo del robot PA-10, sobre el que estaba situada la cámara. Y el desplazamiento es 0 en eje x,

-0.36 en el eje y, y -0.038 en el eje z. Cuando la posición en la que se había situado la cámara respecto

a la ortogonalidad era 0.06 en z y 0.34 en y.

Aunque la recuperación del movimiento no ha sido exacta, se puede considerar correcta, y

suficiente para el caso que nos ocupa. Ya que lo que se busca es mejorar la posición de la vista de un

objeto respecto a una que se considera ideal y que se considera conocida.

Una vez se conoce el movimiento entre imagen deseada e imagen capturada, bastaría invertir

el movimiento calculado para conseguir que la cámara se situara en la posición de la ortogonalidad.

6.5. Análisis del error

El análisis del error que se ha usado para comprobar la validez de la Homografía es el

conocido como error de transferencia en imagen o error de mapeado (Anexo A.2). El error de

transferencia en una imagen, I , se mide como la distancia Euclídea entre las coordenadas medidas

para un punto en la imagen, ip , y las coordenadas del punto imagen que determina la Homografía,

iHp' . En el caso, más realista donde existen errores de medida en ambas imágenes empleadas en el

cálculo de Homografías, se hace preferible que los errores sean minimizados en ambas imágenes. De

este modo se pueden considerar las transformaciones de mapeo en sentido directo e inverso, y sumar

los errores geométricos para cada una de las dos transformaciones.

a) b)


- 179 -

6.5.1. Error de mapeo.

Para comprobar a partir de desplazamientos y giros si se hace aconsejable emplear esta

metodología de corrección del punto de vista de la cámara, se han evaluado los errores en el cálculo de

la Homografía para movimientos verticales y para movimientos horizontales (Figura 6-5). Los

movimientos verticales se definen a partir de un ángulo de altitud, φ. Y los movimientos horizontales

quedan definidos por un ángulo de acimut, θ. Cada movimiento, viene determinado por un ángulo de

acimut y un ángulo de altitud. Además, cada movimiento determinado por ambos ángulos de giro, φ y

θ, definen un desplazamiento dentro de un sistema de coordenadas esféricas que es el contexto en el

que se realiza el movimiento.

El cálculo del error se ha realizado comprobando si la matriz de Homografía obtenida a partir

de dos imágenes capturadas, antes y después, permite mapear n características de una imagen en la

otra con éxito. De este modo, el error de cada punto mapeado se puede calcular como:

( ) ( )ijjiij HxxdxxHerror ,=−⋅= (6.13)

Y la validez de la Homografía se ha expresado en función de dos términos, el error cuadrático medio,

obtenido a partir de la ecuación (6.13), y el porcentaje de error medido obtenido como el porcentaje

del número de puntos mapeados que exceden el error cuadrático medio, como se indica en la ecuación

(6.14). Así, el error se mide como:

n

Hxxderrorq

n

ijij∑

=

2),( (6.14)

Y donde el porcentaje de error medio se ha calculado como

{ }errorqHxxdilongitudnerror ij >= 2),(/_ , 100⋅n

nerror (6.15)

En las figuras 6-6 y 6-7, se muestra los errores de mapeado en un movimiento vertical. En este

caso, la cámara se ha movido con un ángulo de elevación variable, tal que φ Є [1,45º] y con un

incremento angular Δφ que varía entre 1º y 40º. Por supuesto, cuanto mayor es el incremento angular

mayor es el error de mapeado como indican los gráficos de dispersión para cada Δφ. Aunque, en todos

los casos la Homografía obtenida es óptima para mapear puntos y por lo tanto para extraer el

movimiento producido por la cámara a partir de las dos vistas evaluadas, a partir de movimientos de

más de 40º no se hace aconsejable la extracción del movimiento. El error de mapeado se ha definido

como el error en el cálculo de la Homografía como se indica en la ecuación (6.13).


- 180 -

Figura 6-5: Movimiento vertical y horizontal de un objeto.

Figura 6-6: Error de mapeado en movimiento vertical.

De igual modo, se han evaluado los errores que se comenten en el cálculo de la Homografía en

un movimiento horizontal. En la figura 6-8, se muestra los errores de mapeado en un movimiento

horizontal, cuando la cámara se mueve con un ángulo de acimut, tal que θ Є [1,30º], y aplicando un

incremento angular Δθ que varía entre 1º y 30º.


- 181 -

Figura 6-7: Error de mapeado en movimiento vertical y evolución del error cuadrático medio y del porcentaje de mapeados erróneos.

También en este caso, cuanto mayor es el paso en el movimiento mayor es el error de

mapeado como indican los gráficos de dispersión para cada Δθ. Aunque en este caso, el número de

grados desplazados influye en mayor medida en el cálculo de la Homografía. Así, a partir de 15º de

desplazamiento, el error obtenido es similar al obtenido para desplazamientos verticales entorno a 35º.

Y a partir de 30º, la matriz de Homografía se hace inadecuada para mapear puntos y por lo tanto,

ineficaz para extraer el movimiento producido entre dos vistas.


- 182 -

Figura 6-8: Error de mapeado en movimiento horizontal y evolución del error cuadrático medio y del porcentaje de mapeados erróneos.


- 183 -

6.5.2. Error en el cálculo del movimiento.

Una vez se ha evaluado el error de mapeo a partir de la Homografía estimada entre dos vistas,

conviene evaluar la influencia que este error tiene en el cálculo del movimiento de la cámara a partir

de esas mismas dos vistas. Para comprobar el error que se comete, se ha desacoplado el movimiento a

partir de cada Homografía estimada entre dos vistas. Las Homografías estimadas se han calculado a

partir del método de RANSAC (Anexo A.2). Al igual que antes, se procede comprobando los errores

que se comenten en movimientos verticales y horizontales variando los pasos Δθ (horizontalmente) y

Δφ (verticalmente).

En el caso del movimiento vertical (Figura 6-9), los errores de orientación no se disparan,

únicamente aumentan prácticamente de modo proporcional al desplazamiento angular. Además, no se

puede deducir que haya cambios bruscos del error. Así, si se observa la figura 6-9.b, se comprueba

cómo para un desplazamiento de Δφ=5º, el error es prácticamente nulo, 5.1º. Lo mismo ocurre si el

desplazamiento es de Δφ=10º, dónde el movimiento calculado es de 10.28º. Prácticamente hay que

llevar a cabo desplazamientos de Δφ=20º para que el error se aproxime a 1º. No obstante, a partir de

los Δφ=30º el error crece. Así, desplazamientos de 30º están sometidos a errores entorno a los 2º y

desplazamientos de Δφ=40º entorno a los 4º. Sin embargo, este desfase cometido en el cálculo de la

orientación en movimientos verticales no es crítico cuando se desea obtener un mejor punto de vista de

la cámara. Además, el error de mapeado calculado en el apartado anterior, indica que la Homografía

obtenida para desplazamientos verticales entorno a los 40º sigue siendo valida, ya que su error

cuadrático medio está entorno a 15, siendo éste inferior al obtenido para un desplazamiento horizontal

de Δθ=15º.

Figura 6-9: a) Error cuadrático medio en el cálculo de orientación. b) Ángulos obtenidos en desplazamiento vertical.

b) a)

Erro

r cua

drát

ico

Áng

ulo

calc

ulad

o (g

rado

s)

Ángulo girado (grados) Ángulo girado (grados)


- 184 -

Figura 6-10: a) Error cuadrático medio en el cálculo de orientación. b) Ángulos obtenidos en desplazamiento horizontal.

Como se observa en el caso de movimiento horizontal (Figura 6-10.a), a partir de una

diferencia de orientación de Δθ=25 grados, el error cuadrático medio en el cálculo de orientación se

dispara. Esto se puede entender observando la figura 6-10.b. En esta figura se observa como para un

ángulo de acimut de entrada de 25º, es decir el robot que transporta la cámara se mueve desplazando la

cámara 25º, el movimiento recuperado a partir de la Homografía de dos imágenes (capturadas antes y

después del movimiento) es de 31.03º. El desfase por lo tanto en ese eje de giro llega a ser de 6º,

cometiéndose un error de casi el 25% en el posicionamiento. Este desfase es debido a un mal cálculo

de la Homografía, ya que como se observo en el Apartado 6.5.1, acercándose a los Δθ=30º la

Homografía obtenida por el método de RANSAC a partir de características esquinas correspondientes,

se hace inadecuada. Por lo tanto, se deduce que conviene limitar los movimientos de este tipo por

debajo de los 20º de desplazamiento angular.

A continuación, se procede de modo similar para evaluar el error en el desplazamiento

calculado para la cámara. En el caso del movimiento vertical, si se compara el desplazamiento que se

calcula en cada eje a partir de las imágenes, con el que realmente lleva a cabo la cámara, se observa

que la trayectoria que sigue y que debería seguir son similares, siendo el mayor error el que se produce

en el eje z. Si además se observa la figura 6-11.a, se puede comprobar el error de desplazamiento que

se produce en cada eje para cada uno de los giros evaluados entre [0,40º]. El error cuadrático medio de

las variaciones producidas en cada eje varía entre los 7.1mm del eje x, los 14mm del eje y los 6.2mm

del eje z.

b)a)

Erro

r cua

drát

ico

Áng

ulo

calc

ulad

o (g

rado

s)



- 185 -

Figura 6-11: a) Error de desfase en posición para cada eje en el cálculo del desplazamiento en [mm]. b) Comparación de los desplazamientos obtenidos en el movimiento vertical y los deseados en [mm].

Posteriormente, se observan cuales son los errores en el cálculo de la posición cuando se

produce un movimiento horizontal de cámara (Figura 6-12.a), es decir se varía el ángulo de acimut, θ,

manteniendo el ángulo de altitud, φ, fijo. Por ejemplo, se ha fijado el ángulo de altitud en φ=30º y se

ha variado el ángulo de azimut entre θ Є [1,30º].

Figura 6-12: a) Error de desfase en posición para cada eje en el cálculo del desplazamiento en [mm]. b) Comparación de los desplazamientos obtenidos en el movimiento horizontal y los deseados en [mm].

b) a)

Erro

r de

desf

ase

(mm

)

Erro

r des

plaz

amie

nto

(mm

)


b) a)

Erro

r de

desf

ase

(mm

)

Erro

r des

plaz

amie

nto

(mm

)



- 186 -

6.6. Experimentación. Mejorando el punto de vista mediante ortogonalidad.

A continuación, se presenta un experimento con otro objeto sobre el que también se desea

realizar un análisis de movimiento. Para este experimento se ha escogido una escena cuyo fondo es de

color negro. Se ha empleado un sistema de luz difusa a intensidad media, aun así dependiendo de la

superficie del objeto se producen ciertos brillos. Las pruebas se han realizado empleando una cámara

situada en el extremo de un robot PA-10. La cámara situada en el extremo del robot ha sido calibrada

mediante las Toolbox Calibration [Bouguet-2007], obteniéndose la siguiente matriz de calibración (ver

Anexo A.3.3):

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡=

10083.29863.812046.374026.817

K (6.16)

Se ha situado el robot en una posición arbitraria dentro del espacio de trabajo de éste, de modo

que se pueda capturar una imagen del objeto situado sobre la escena de trabajo. Posteriormente, se

hace una captura de una imagen de la escena en esa posición. A partir de esta imagen, se quiere

obtener la posición en la que está dispuesta la cámara con respecto a la posición ideal. Se ha

considerado como posición ideal de la cámara aquella en que la cámara adquiere una imagen de forma

ortogonal a la escena, haciendo que el plano imagen y el plano de la escena sea lo más paralelo

posible.

La imagen ideal se emplea como la imagen objetivo y la información que de ella se puede

extraer como características deseadas. Por lo tanto, siempre se dispondrá de información a priori en

esta metodología. Y esa información será la información que se adquiriría desde la que se considera la

mejor posición posible de la cámara. Esta información se almacena y se emplea cuando es necesario

modificar la vista de un objeto a partir de una posición de cámara cualquiera.

Para realizar la experimentación se ha movido el robot en un conjunto de posiciones

pertenecientes a un espacio de búsqueda semiesférico como el que se ha mostrado en el Apartado 5.2

del Capítulo 5. De este modo, cuando se captura una imagen con la cámara situada en el extremo del

robot, conocemos en que posición y en que orientación está respecto a la posición deseada 0C . Esto ha

permitido evaluar para qué tipo de movimientos y con qué valor de desplazamientos se comienzan a

producir errores importantes en la estimación del movimiento, como se ha comentado y evaluado en el

Apartado 6.5.


- 187 -

Por ejemplo, a continuación, en la figura 6-13 se muestra la imagen del objeto frigorífico, así

como un conjunto de las posibles imágenes deseadas, o imágenes objetivo que se obtendrían con una

posición ortogonal de cámara para cada una de las posibles vistas de las caras del objeto frigorífico.

El objetivo, por lo tanto, es conseguir que la cámara tenga la posición y orientación inicial que

tenga, acabe moviéndose hasta que la imagen que pueda capturar sea similar a alguna de las mostradas

en la figura 6-13.

Por lo tanto, el primer paso consiste en determinar de qué objeto se trata. Para ello, se dispone

de información de las distintas caras del objeto a reconocer (Figura 6-13). La información de la que se

dispone es un conjunto de características SIFT (ver Anexo A.1.2).

Figura 6-13: Posibles vistas de un objeto ‘frigorífico’.

Por lo tanto, extrayendo características SIFT para cada una de las caras del modelo

‘frigorífico’ (Figura 6-13) y de la imagen del objeto a procesar (Figura 6-14) se obtiene que el objeto

visible en la imagen de la figura 6-14 coincide en 41 marcas con la cara mostrada en la figura 6-13.a, 4

marcas con la cara de la figura 6-13.b, 15 marcas con la cara mostrada en la figura 6-13.c y 3 marcas

con la cara mostrada en la figura 6-13.d (Figura 6-14).

Una vez se ha reconocido cual de los posibles objetos y qué cara de dicho objeto es la que está

visible se extrae una serie de características de la imagen deseada (Figura 6-15.a) y de la imagen

capturada en un instante de tiempo determinado (Figura 6-15.b). Después, se realiza un análisis de


- 188 -

correspondencias entre ambas imágenes (Figura 6-15.c) y se calcula la Homografía entre la vista

deseada y la vista actual (Figura 6-15.d). A continuación, se comprueba la validez de ésta empleando

la metodología mostrada anteriormente (Apartado 6.5). Y finalmente, si la matriz de Homografía es

valida, se recupera el movimiento Euclídeo (Figura 6-16) conocida la matriz de calibración.

Figura 6-14: Reconocimiento de la vista del ‘frigorífico’ mediante descriptores SIFT.

De este modo, la Homografía obtenida en este caso es:

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡−−

=1000159.0000081.0

328470.16090346.1035759.0801346.38063051.0121437.1

H

(6.17)

Los parámetros intrínsecos de la cámara, que ha sido previamente calibrada vienen dados por

la siguiente matriz de calibración K (Anexo A.3):

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡ −== −

077774.1129126.0066109.0001008.004282.1011653.0004417.0003530.0091147.1

1' HKKH

(6.18)

Así, en la figura 6-15 se muestra la extracción de características, el proceso de

correspondencia entre características de ambas imágenes y la Homografía que mapea puntos entre

imágenes. En total, se han extraído 80 correspondencias de las cuales el método de RANSAC para el

cálculo de Homografía reduce a 46 las útiles, es decir el 58% de las características detectadas es útil

para el cálculo de la Homografía.

Para este experimento, mostrado en la figura 6-15, y a partir de las matrices de las ecuaciones

(6.16) y (6.17) se obtiene la ecuación (6.18) y desacoplando el movimiento de la matriz de

Homografía, como se ha explicado en el Apartado 6.4, se ha computado el movimiento mostrado en la

figura 6-16.b.

Si se analiza el resultado, el giro en x obtenido es de 7.062º frente a los 7º que se había rotado

el extremo del robot PA-10, sobre el que estaba situada la cámara. Y el desplazamiento es -0.06 en eje


- 189 -

x, -0.13 en el eje y, y -0.01 en el eje z. Cuando la posición en la que se había situado la cámara

respecto a la ortogonalidad era 0.06 en x y 0.12 en y.

Figura 6-15: a) y b) Detección características. c) Correspondencia por correlación. c) RANSAC y homografía.

Figura 6-16: a) Análisis del error de mapeado para H estimada. b) Movimiento calculado a partir de H.

a) b)

c) d)

a) b)

En este último capítulo se describen los resultados y conclusiones de las investigaciones realizadas y que han sido presentadas a lo largo de esta Tesis doctoral. Además, se comentan las publicaciones que han supuesto el fruto de las estrategias y métodos presentados en ella. Finalmente, se concluye ofreciendo distintos puntos de partida para abordar trabajos futuros, mejorar resultados, superar problemas y deficiencias que mejoren su aplicabilidad, así como abrir nuevas vías que aborden los problemas de la detección de oclusiones y mejora del punto de vista de la cámara para corregir éstas o evitarlas.

7.1. Introducción

En este último capítulo se describen los resultados y conclusiones de las investigaciones

realizadas y que han sido presentadas a lo largo de esta Tesis doctoral. Asimismo se ofrecen distintas

perspectivas sobre los trabajos futuros a desarrollar en los próximos años sobre el mismo tema objeto

de estudio.

En esta Tesis se ha realizado un estudio para identificar zonas de posibles oclusiones sin tener

en principio conocimiento a priori de los objetos que sufren dichas oclusiones. Para abordarla, se han

hecho diferentes enfoques basados en procesos de segmentación color, extracción clásica de

características y técnicas que emplean luz estructurada. Este enfoque ha demostrado ser de utilidad

cuando no se dispone de información o conocimiento a priori de los objetos presentes en la escena y

de los que se quiere determinar si existe o no oclusión. Además, se ha complementado con el estudio

de métodos para evitar y corregir el punto de vista de la cámara, en aquellas situaciones en las cuales

la orientación y posición espacial de la cámara no es la más adecuada, para la captura de imágenes

para el reconocimiento de objetos presentes en ellas.

Fruto de estos estudios se han desarrollado varios métodos, tanto en el ámbito de detección de

oclusiones mediante procesos de segmentación y luz estructurada, como desde el punto de vista de la

corrección de la posición de la cámara para evitar oclusiones detectadas. Los resultados obtenidos con

estos métodos han sido publicados en congresos nacionales e internacionales, así como en revistas de

reconocido prestigio.

7.2. Resultados y conclusiones

Inicialmente, se ha desarrollado un método de segmentación de imágenes basado en dos

espacios de color RGB y HSV, así como en el empleo y análisis de la información que aportan los

histogramas bidimensionales V/S para mejorar el proceso de segmentación. Este método consiste en

extender la detección clásica de un umbral en una imagen en escala de grises que separe fondo de

objeto, a una detección de múltiples umbrales para cada una de las componentes de color RGB y HSV

que sea capaz de separar varios objetos del fondo por cada componente de color. Posteriormente, el

método propuesto ha sido completado incluyendo la distribución de información que proporciona el

histograma bidimensional obtenido a partir del espacio de color HSV. Así, fijando sobre el histograma

los umbrales detectados en la etapa previa, es posible analizar y seleccionar los umbrales más

Capítulo 7. Conclusiones

-194 -

adecuados para segmentar atenuando la influencia de brillos y sombras en el proceso de segmentación.

Como conclusión destacar que el método combinado RGB-HSV permite atenuar los problemas de

sombras y brillos, respecto a una segmentación RGB. Además, el método propuesto mejora la

aparición de falsos colores en los procesos de agrupación y clusterizado de regiones que pueden

aparecer en segmentaciones HSV. Los resultados experimentales y las diferencias de emplear un

método se segmentación RGB, HSV o el método combinado RGB-HSV con histogramas V/S se han

expuesto en el Capítulo 4 de la presente Tesis. En este mismo capítulo, se ha presentado una

aproximación original para detectar, en la imagen, posibles zonas candidatas de oclusión haciendo uso

de la segmentación combinada. Así, primero se buscan en la imagen las zonas donde se produce una

variación significativa de color, es decir los bordes donde el gradiente se hace máximo. Y

posteriormente, se ajustan los bordes por segmentos de línea y se analiza el color de los entornos de

vecindad de éstos. Esta aproximación permite clasificar los bordes detectados como zonas entre

objetos que pueden predeterminar una zona de solapamiento visual o de contacto entre objetos.

Los resultados comentados han dado lugar a las siguientes publicaciones:

• “Detección de Objetos por Segmentación Multinivel Combinada de Espacios de Color”. P.

Gil, F. Torres, F.G. Ortiz. XXV Jornadas de Automática. Ciudad Real (España). 2004.

• “A comparative study of highlights detection and elimination by color morphology and

polar color models”. F.G. Ortiz, F. Torres, P. Gil. Ed. Springer-Verlag. Lecture Notes in

Computer Science. Vol. 3523. pp. 295-302. 2005.

• “Detection of partial occlusions of assembled components to simplify the disassembly

tasks”. P. Gil, F. Torres, F.G. Ortiz, O. Reinoso. Ed. Springer-Verlag. International

Journal of Advance Manufacturing Technology. Vol. 30. Num. 5. pp. 530-539. ISSN:

1433-3015. 2005.

En el Capítulo 4, también, se presenta un método nuevo y original, que haciendo uso de luz

estructurada permite detectar zonas de oclusión entre objetos. Con este método se ha pretendido

detectar zonas de oclusión sin necesidad de emplear otro tipo de información, como es el color, la

textura o la forma de los objetos. De modo, que pudiera emplearse de manera combinada con otro tipo

de métodos de detección, proporcionando información adicional. En este método, las zonas de

oclusión por solapamiento se han definido como discontinuidades en las superficies. Y la técnica

presentada consiste en proyectar un patrón de luz formado por círculos concéntricos, aproximar los

contornos de los patrones circulares, agrupar puntos significativos de los contornos analizando

distancias y momentos inerciales, y finalmente aproximar los puntos agrupados por segmentos de

línea. Estos segmentos de línea determinarán la dirección de discontinuidad y la zona de solapamiento.


- 195-

El método se ha aplicado con éxito cuando se quieren detectar las zonas de solapamiento entre

varios objetos poliédricos que tienen similares propiedades de color, situación en la que las técnicas de

segmentación color no son aplicables o fallan. El método permite trabajar sin cámaras previamente

calibradas a diferencia de otros métodos basados en imágenes de rango que requieren de calibraciones

previas. También, se ha empleado con éxito combinado con un sistema de control visual-fuerza en el

cálculo de discontinuidades de superficies en procesos de inspección por un brazo robótico.

Los resultados de la aplicación de esta técnica han dado lugar a las siguientes publicaciones:

• “Una aproximación a la percepción de zonas de solapamiento con oclusión mediante luz

estructurada”. P. Gil, F. Torres. XXVI Jornadas de Automática. Pp. 1069-1076. ISBN: 84-

689-0730-8. Alicante-Elche (España). 2005.

• “A detection method of intersection for determining overlapping using active vision”. P.

Gil, F. Torres, O. Reinoso. International Conference on Computer Vision Theory and

Applications (VISAPP’06). Vol.1, pp. 501-507. ISBN: 972-8865-40-6. Setubal (Portugal).

• “Visual-Force Control and Structured Light Fusion to Improve Recognition of

Discontinuities in Surfaces”. J. Pomares, P. Gil, G.J. Garcia, F. Torres. 11th. IEEE

International Conference on Emerging Technologies and Factory Automation (ETFA’06).

Pp. 1044-1050. ISBN: 1-4244-0681-1. Praga (Republica Checa). 2006

• “Improving detection of surface discontinuities in visual-force control systems”. J.

Pomares, P. Gil, G.J. Garcia, J.M. Sebastián, F. Torres. Ed. Elsevier. Image and Vision

Computing. (Aceptado y pendiente de publicación en 2008).

Finalmente, en el Capítulos 5, se ha presentado una novedosa estrategia de planificación de las

posibles localizaciones que una cámara puede adoptar en el espacio de trabajo para evitar zonas de

oclusión visual entre objetos. Este proceso se ha llevado a cabo, mediante el análisis de imágenes

virtuales construidas a partir de la proyección de características extraídas de una imagen inicial. El

posterior análisis de las imágenes virtuales permite discernir cómo se acercan o van alejando los

objetos y como aumentan o reducen su superficie visible. El uso de imágenes virtuales tiene la ventaja

de evitar el movimiento de la cámara y procesado de las imágenes para cada una de las posiciones que

va adoptando.

Fruto de estas investigaciones cabe destacar la siguiente publicación:

• “Estimation of Camera 3D-position to Minimize Occlusions”. P. Gil, F. Torres, O.

Reinoso. 4th International Conference on Informatics in Control, Automation and

Robotics (ICINCO’07). Vol. 2, pp. 311-317, ISBN: 978-972-8865-83-2. Angers (Francia).

2007.


-196 -

Y posteriormente, en el Capítulo 6, se estudia una estrategia para mejorar el punto de vista de

una cámara cuando la localización de ésta y la propia naturaleza del objeto proporcionan una

perspectiva inadecuada reduciendo el área visible. En definitiva, se busca conseguir la mejor

localización espacial para que una cámara montada en el extremo de un robot consiga el punto de vista

que mejor imagen permita adquirir. En este caso se ha considerado que la ortogonalidad de la cámara

respecto al plano de captura proporciona el mejor punto de vista. Para llevar a cabo el método que

implementa esta estrategia se dispone en una base de datos, imágenes de cada una de las caras del

objeto. Se compara cada cara con la imagen que es capturada por la cámara en una posición arbitraria.

Una vez se ha emparejado la imagen capturada con una de las imágenes almacenadas se calcula la

homografía que relaciona la imagen buscada con la imagen capturada y se recupera el movimiento

acoplado en la homografía. El movimiento obtenido será el movimiento inverso que tendría que

realizar el robot para situar la cámara en la localización deseada para observar el objeto desde su mejor

punto de vista.

Para concluir, destacar que esta tesis se ha desarrollado con una doble finalidad. Por un lado,

uno de los objetivos generales de esta tesis, consiste en estudiar técnicas para abordar el problema de

la detección de oclusiones, e incorporar nuevas estrategias y métodos que permitan identificar las

zonas de oclusión en una escena a partir de la información obtenida por un sistema de visión. Y por

otro lado, el otro objetivo busca determinar la posición y orientación espacial con la que el sistema de

visión observaría la escena sin incurrir en situaciones de oclusión.

También me gustaría resaltar algunos otros trabajos publicados que sin ser la base

fundamental de esta tesis doctoral, me proporcionaron la base teórica-práctica de las investigaciones

aquí tratadas y la semilla que ha permitido encaminar mis investigaciones y trabajos en las líneas que

esta tesis aborda.

• “Reconstrucción tridimensional de objetos con técnicas de visión y luz estructurada”. P.

Gil, E. Manchón, F. Torres, J. Pomares, F.G. Ortiz. XXIII Jornadas de Automática. ISBN:

84-699-8916-2. Santa Cruz de Tenerife (España). 2002. Premio a la mejor comunicación

científica.

• “Objects Recognition by means of projective invariants considering corner-points”.

Journal of WSCG. Vol. 10, No. 3, pp. 129-135. ISSN: 1213-6972. A. Vicente, P. Gil, O.

Reinoso, F. Torres. 2002.

• “Data Fusion from multiples cameras for Automatic Disassembly”. P. Gil, S.T. Puente, F.

Torres, J. Pomares, F.A. Candelas. IFAC Workshop on Intelligent Assembly and

Disassembly. Pp. 85-90. Canela (Brasil). 2001.


- 197-

• “Automatic PC disassembly for component recovery”. F. Torres P. Gil, S.T. Puente, J.

Pomares, R. Aracil. Ed. Springer-Verlag. International Journal of Advanced

Manufacturing. Vol. 23, No. 1, pp. 39-46. 2004.

7.3. Trabajos futuros

Las líneas de investigación en las que se han centrado los trabajos aquí presentados dejan

abiertas varias vías de ampliación de mejora de las metodologías y técnicas aquí presentadas, así

como el desarrollo de nuevos métodos que traten de resolver la misma problemática con otras

aproximaciones. Entre todos ellos se podrían destacar las siguientes:

Respecto a los procesos de segmentación utilizados para detectar zonas de oclusión:

• Incorporar otros métodos de segmentación, bien basados en la representación del

color, en otros espacios de color distintos a los empleados en los desarrollos de esta

Tesis o bien redefiniendo otros criterios distintos en el proceso de detección de

umbrales.

• Mejorar el proceso de elección de umbrales a partir de los histogramas

bidimensionales.

• Añadir, otro tipo de información de similitud para agrupar regiones durante el proceso

de segmentación, por ejemplo información de textura.

En relación a la detección de discontinuidades y oclusión con luz estructurada:

• Mejorar el proceso de aproximación en líneas de discontinuidad incorporando

métodos de aproximación más estables ante puntos de ruido, por ejemplo empleando

la técnica RANSAC.

• Añadir nuevos parámetros que mejoren el proceso de agrupamiento de puntos

pertenecientes a mismos haces de proyección, además de los ya empleados como

distancias y momentos inerciales.

• Estudiar modelos de deformación de patrones de luz estructurada en función de las

formas de las superficies sobre las que se proyectan y el tipo de material sobre el que

se proyectan, etc.

• Investigar otros métodos de detección de discontinuidades basados en técnicas

distintas a la proyección de luz estructurada, por ejemplo empleando imágenes de

rango con cámaras en tiempo de vuelo.


-198 -

Vinculados con el proceso de estimación del movimiento para evitar oclusiones:

• Incorporar otros parámetros para medir la presencia de oclusiones, además de los

basados en distancias y áreas.

• Incorporar información tridimensional de los objetos, para que el estudio que evite la

oclusión no se base únicamente en las proyecciones virtuales de la parte visible del

objeto. Esto se podría solucionar, incorporando un modelo CAD del objeto, y

desarrollando un proceso de ‘matching’ entre la parte visible del objeto y el modelo

CAD para determinar cual es la posición de la cámara y el punto de vista de la cámara

antes del movimiento.

Respecto a los procesos de estimación de movimiento para mejorar el punto de vista:

• Escoger otro tipo de características más robustas y mejorar el proceso de análisis de

correspondencias. Para ello se podría emplear algún tipo de estimador basado en filtro

de KALMAN que permitiese limitar y prever el espacio de búsqueda de

correspondencias entre imágenes consecutivas.

En general, los estudios presentados en esta Tesis también podrían extenderse a la

incorporación de una base de datos de conocimiento de los objetos de los cuales se quieren detectar

oclusiones, e incorporar mecanismos de comparación de características visibles y no visibles en

relación a la información disponible en la base de datos.

En este documento anexo se comentan los métodos para extracción de características más usados en el cálculo de homografías. En concreto, se tratan detectores de puntos de interés básicos, como el método Harris y sus variantes, así como los descriptores SIFT. También, se aborda la metodología para la estimación y calculo de transformaciones entre imágenes. Se hace especial hincapié en el método de RANSAC y Levenberg-Marquardt para el cálculo de homografías. Y además, se estudia el marco del proceso de formación de la imagen y las transformaciones y procesos involucrados en el registro de una imagen digital.

A.1. Detectores de puntos de interés

Por lo general, el cálculo de matrices de Homografía, u otro tipo de relaciones entre imágenes

requieren de un proceso de extracción de características ( )iii yxp , . En este apéndice se ha querido

comentar los métodos de extracción de características más empleados en los últimos años.

A.1.1. El detector de Harris

El método de Harris [Harris-1988], es uno de los más populares detectores de puntos de

interés, debido a su fuerte invarianza a factores de rotación, varianza en la iluminación y ruido de

imagen. El detector de Harris se basa en una función de autocorrelación que mide los cambios locales

de la señal haciendo uso de ‘patchs’ pequeñas regiones máscara que se desplazan en distintas

direcciones a lo largo y ancho de una imagen o región de ésta.

Dada una imagen en escala de grises, representada como una función de coordenadas

espaciales medidas en píxeles, RyxI ∈),( se puede definir la función de autocorrelación como:

[ ]∑ Δ+Δ+−=W

iiii yyxxIyxIyxc 2),(),(),( (A1.1)

donde ),( yx ΔΔ representa el desplazamiento y W el tamaño de la región evaluada.

El segundo término de la ecuación (A1.1) se puede aproximar por un desarrollo de Taylor de

primer orden como:

[ ] ⎥⎦

⎤⎢⎣

⎡ΔΔ

+≈Δ+Δ+yx

yxIyxIyxIyyxxI iiyiixiiii ),(),(),(),( (A1.2)

donde ),( iix yxI y ),( iiy yxI denotan las derivadas parciales de la imagen.

Si se resuelve el sistema formado por ambas ecuaciones, sustituyendo (A1.2) en (A1.1), se

obtiene:

[ ] [ ] ⎥⎦

⎤⎢⎣

⎡ΔΔ

⋅⋅ΔΔ=∑ ⎟⎟⎠

⎞⎜⎜⎝

⎛⎥⎦

⎤⎢⎣

⎡ΔΔ

yx

yxCyxyx

yxIyxIW

iiyiix ),(),(),( (A1.3)

donde ),( yxC es la matriz de autocorrelación que define la estructura de un entorno de

vecindad local y cuyos valores propios definen las propiedades de ese entorno de vecindad.

Anexo A

- 202 -

( )( ) ⎥

⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡

∑∑

∑∑=

Wiiy

Wiixiiy

Wiiyiix

Wiix

yxIyxIyxI

yxIyxIyxIyxC 2

2

),(),(),(

),(),(),(),( (A1.4)

A esta matriz de autocorrelación, también, se le conoce con el nombre de matriz Hessiana

porque representa las derivadas parciales de segundo orden de la imagen.

Si se denotan, como 1λ y 2λ los valores propios de la matriz de autocorrelación, estudiando

estos valores, se puede definir la existencia o no de puntos de interés en el entorno de vecindad

evaluado. Así, si ambos valores propios son altos, entonces se define un punto de interés, si ambos

valores son pequeños, entonces la región evaluada es uniforme y no tiene cambios bruscos de

luminancia, y finalmente si uno de los valores es elevado y el otro es pequeño, entonces se ha

producido un pequeño cambio en la dirección ortogonal que indica la existencia de un contorno de

borde. Esta medida se puede automatizar calculando el determinante y la traza de la matriz de

autocorrelación como se indica en la ecuación (A1.5).

( ) 21

21

),(traza),(

λλ

λλ

+=

⋅=

yxCyxC

(A1.5)

Para evaluar la relación entre los valores propios, se emplea la relación de medida:

( ) ( )221212)),((),( λλλλ +⋅−⋅=⋅−= kyxCtrazakyxCR (A1.6)

donde k es un valor empírico comprendido dentro del intervalo [0.04,0.06].

Para imágenes en color, la matriz imagen 3),( RyxI ∈ se puede generalizar de diversas

maneras como se indica en [Felsberg-2004]. En este caso, bastaría con aplicar la suma de la relación

de medida 3),( RyxR ∈ para cada componente de color. En cuyo caso, se detectará punto de interés

cuando se cumpla la relación [Orguner-2007].

),(maxarg_local_ yxRp(x,y) = (A1.7)

A.1.2. Descriptor SIFT: Características invariantes a escala.

Aunque el detector de Harris no es invariante al escalado en la imagen y a otras

transformaciones afines [Schmid-2000], éste se ha empleado en numerosas ocasiones como base para

construir detectores invariantes a escalado. Un ejemplo de uno de estos métodos es el detector de

impHarris. El detector de impHarris reemplaza la máscara [-2 -1 0 1 2] por una Gaussiana de

desviación 1=σ . Otro método derivado del método de Harris es el método de [Cottier-1994] que

Anexo A

- 203 -

consiste en aplicar el método de Harris sólo a los puntos de contorno que son extraídos a partir de un

detector de bordes de Canny. Entre otros, también destaca el detector multiescala de Harris,

seleccionando aquellos puntos de interés de Harris en los que la medida local de Laplaciana es

máxima (en la literatura se conoce como detector de Harris-Laplace) [Mikolajczyk-2004]. Así, se

proporciona un conjunto de puntos de interés, que si son invariantes a escala, rotación, traslación y son

robustos a cambios de iluminación, aunque son limitados a cambios en el punto de vista. Otro de los

más populares detectores invariante ante escalado y transformaciones afines es el detector DoG

empleado por el método de Loewe [Loewe-1999]. El método de David Loewe propuso un descriptor

de características locales de la imagen basado en histogramas locales, que registren las

transformaciones que sufren las distintas regiones locales en las que la imagen se subdivide.

El método de Loewe consta de dos etapas básicas, denominadas etapa de detección de puntos

de interés (detección de ‘keypoints’) y etapa de construcción de descriptores (‘SIFT’).

(i) Etapa de detección de puntos de interés: Detección de todas las regiones circulares

con respuesta máxima al filtro de Diferencias Gaussianas (DoG). La detección se

implementa haciendo uso de la metodología basada en pirámide del espacio de escala.

Así, inicialmente se aplica una convolución entre la imagen original RyxI ∈),( y un

filtro Gaussiano RyxG ∈),,( σ .

( ) ( ) ( )yxIyxGyxL ,*,,,, σσ = (A1.8)

Se repite sucesivamente el proceso, aplicando a la imagen resultante (imagen

suavizada), de nuevo, una convolución con el filtro Gaussiano. Así, de este modo se

termina definiendo lo que se conoce como el espacio de escala, formado por la imagen

original con distintos niveles de convolución con el filtro Gaussiano. A continuación,

se restan dos a dos cada una de los pares de imágenes adyacentes que habían sido

obtenidas. El resultado de estas diferencias es el conjunto de imágenes conocido como

DoG.

( ) ( )( ) ),(*,,,, yxIyxGkyxGDoG σσ −≡ (A1.9)

Finalmente, se detectan los mínimos y máximos locales de las diferencias DoG. El

resultado es un conjunto de tuplas ),,( σyx formadas por las posiciones en la imagen y

por un valor σ de desviación típica que define el escalado determinado por el índice

de suavizado en la imagen.

(ii) Una vez se ha obtenido un conjunto inicial de puntos de interés, como el conjunto de

puntos que proporcionan máximos locales de las diferencias DoG. Se realiza una

Anexo A

- 204 -

aproximación subpíxel para refinar las posiciones de los puntos detectados. Esto se

lleva a cabo ajustando las respuestas DoG mediante el empleo de una función

cuadrática tridimensional. Este refinamiento se hace imprescindible porque a niveles

altos de la pirámide de filtrado gaussiano, desplazamientos de un solo píxel pueden

producir grandes desplazamientos en el dominio de la imagen. Los puntos no validos

se eliminan aplicando, un factor de evaluación similar a la evaluación de la matriz

Hessiana con el factor R , en el anterior método de Harris. Así, se eliminan todos

aquellos puntos cuyo valor está por debajo de un umbral predefinido. Y todos aquellos

que se encuentran sobre un borde recto, porque a pesar de tener un valor de DoG

elevado resultan inestables para determinar la localización en su dirección.

⎥⎦

⎤⎢⎣

⎡=

yyxy

xyxx

DDDD

yxH ),( (A1.10)

rr

HH 2)1()(traza +

< (A1.11)

(iii) Etapa de construcción de descriptores: En esta segunda etapa, para cada una de las

tuplas de puntos de interés ‘keypoints’ se escoge una región entorno a cada posición

del ‘keypoint’ (generalmente de 16x16 píxeles). Y, se emplea, la escala del ‘keypoint’

obtenida en el paso previo para escoger la imagen de escala, como se ha visto en la

ecuación (A1.8). Posteriormente, se calcula la magnitud y orientación del gradiente

usando diferencias finitas, como:

( ) ( ) ( )

( ) ( )( )⎟⎟⎠

⎞⎜⎜⎝

⎛ΔΔ

=

Δ+Δ=

−

yxLyxL

yx

yxLyxLyxm

,,

tan,

,,,

1

22

θ (A1.12)

Una vez calculada la magnitud y orientación del gradiente para cada escala, se crea un

histograma local de direcciones gradiente (generalmente 8 posibles direcciones),

computadas para cada escala seleccionada. Cada posición del histograma define una

orientación. Y el valor para cada posición en el histograma determina el número de

píxeles de la región entorno al ‘keypoint’ que tiene esa orientación. Cada pico del

histograma determina, por lo tanto, la orientación final que se asignará a cada punto de

interés y que será la más votada. Así, cada punto de interés viene definido por una

tupla de cinco elementos ),,,,( θσ myx .

Anexo A

- 205 -

A.2. Estimación robusta de transformaciones.

El concepto de estimación consiste en promediar una cantidad basándose en un conjunto de

medidas. En la mayoría de las situaciones, el conjunto de medidas que se quiere emplear tienen ruido,

y por lo tanto se necesita encontrar una solución aproximada y tener una forma de establecer cual de

todas las soluciones que se encuentran es la mejor solución, mediante una función de costo.

Generalmente, cuando se extrae un conjunto de características correspondientes, ( )iii yxp , y

( )iii yxp ','' , en dos imágenes, la única medida de error considerada es el error de posición al extraer la

característica de cada punto en la imagen. Además, suele considerarse que este error sigue una

distribución Gaussiana. Sin embargo, en muchos casos, existen características cuyo error parece no

seguir una distribución de este tipo. Es el caso de los errores sistemáticos que se producen en los

procesos de ‘matching’ o emparejamiento de correspondencias. En estos casos, dichos puntos pueden

influenciar negativamente la estimación de la Homografía entre esas dos imágenes. Por lo tanto, se

requiere de algún mecanismo que permita identificar estos emparejamientos que no son precisos, es

decir no son validos para el cálculo de la Homografía. Por este motivo, un método robusto como

RANSAC permite estimar la Homografía entre dos vistas, a pesar de la existencia de este tipo de

correspondencias no deseadas.

El método de RANSAC (Random Sample Consensus) [Fischler-1981] trata de encontrar una

estimación robusta que ajuste un conjunto de características a pesar de la existencia de puntos que no

siguen una distribución de error predefinida. Así, en el método de RANSAC para el ajuste de una

recta, consiste en escoger dos puntos aleatorios de entre un conjunto de puntos. Estos puntos definen

una recta, y así se calcula el modelo recta. Después, se estima cuántos puntos del conjunto completo

pueden pertenecer al modelo recta. Así, se mide la distancia del resto de los puntos del conjunto a la

recta. Se repite este proceso, un número de veces hasta conseguir la recta que minimiza las distancias

del resto de puntos a ella. A partir de esta recta de soporte se comprueba que la distancia del resto de

los puntos a la recta no sobre pase un umbral de distancia determinado. La recta soporte será aquella

que contiene más puntos cercanos por debajo del umbral de distancia escogido. Si sobrepasa este

umbral de distancia se considera que los puntos están fuera de la recta. La distancia umbral, en la

práctica, se escoge empíricamente. Para el caso que nos ocupa en esta Tesis (estimación de

Homografías), el método de RANSAC se hace más general. De modo, que lo que se busca es ajustar

una serie de características, en este caso puntos, a un modelo concreto.

Anexo A

- 206 -

A.2.1. RANSAC para estimar homografías

Cuando se quieren realizar algoritmos en los que todos los pasos, desde el proceso de

correspondencia, hasta el cálculo de matrices de proyección, se calculen de modo automático, es

posible que aparezcan valores espurios o no deseados, conocidos como ‘outliers’. Los ‘outliers’ se

pueden definir como puntos que un algoritmo ha estimado, pero que en realidad no son

correspondencias validas. Ésto tiene el problema añadido, que al intentar solucionar sistemas de

ecuaciones con puntos de este estilo se obtendrán soluciones erróneas. RANSAC es un método de

estimación que tiene en cuenta este hecho e intenta identificar los puntos no validos u ‘outliers’ con el

fin de que no se consideren para el cálculo o estimación.

Así RANSAC para el cálculo de Homografías permite determinar que conjunto de

correspondencias ( )iii yxp , y ( )iii yxp ','' son adecuadas para estimar la matriz de Homografía entre

dos conjuntos de características [Faugeras-2003], identificando cuales de las correspondencias

obtenidas en un proceso previo de correlación no son validas.

El algoritmo consiste en:

(i) Extracción de características en dos imágenes. Generalmente puntos de esquina o

‘corners’ o cualquier otro tipo de puntos de interés.

(ii) Calcular un conjunto de correspondencias entre dichas características mediante un

proceso de ‘matching’ basado en técnicas de similitud entre valores de luminancia de

los entornos de vecindad.

(iii) Calcular por RANSAC una estimación robusta de correspondencias que se ajusten al

modelo requerido. En este caso se seleccionaran siempre 4 correspondencias puesto

que es el número mínimo de características necesario para calcular una Homografía.

Se escoge la Homografía con menor número de ‘outliers’.

El algoritmo RANSAC consiste en:

• Seleccionar aleatoriamente, un subconjunto de muestras, Ss ⊂ , con el mínimo número

de puntos que permitan instanciar el modelo. Si para el método de RANSAC aplicado

al ajuste de rectas se necesitaban dos puntos para minimizar el conjunto de datos que

se ajustan a un modelo, en el caso del cálculo de Homografías el método de RANSAC

requiere de un subconjunto mínimo de cuatro puntos correspondientes. El modelo que

se calcula es la Homografía para ese subconjunto de 4 puntos.

• Determinar el subconjunto de puntos, SSi ⊆ que está dentro de una distancia t del

modelo. El parámetro de distancia t determina qué puntos que cumplen con el modelo

Anexo A

- 207 -

se escogen. Se requiere que haya una probabilidad mayor o igual que 0.95 de que el

punto seleccionado cumpla con el modelo. Para Homografías en el plano 299.5 σ=t

[Hartley-2003].

• Si TSi > para un valor de T predeterminado, se reestima el modelo con todo el

subconjunto iS y se finaliza el algoritmo. El parámetro T define el mínimo número

de elementos en iS necesarios para considerarlo una solución. Este parámetro depende

del número de datos erróneos que se supone en la información, ε , y del número total

de puntos, n . Así, )1( ε−⋅= nT .

• Si TSi ≤ para un valor de T predeterminado, se selecciona un nuevo subconjunto iS

y se repiten los pasos anteriores.

• Después de N intentos sin que se cumpla la condición TSi > se escoge un iS más

grande y se reestima el modelo de nuevo. El número de intentos N es el número de

muestras con las cuales se hace el cálculo. Se escoge para que con una probabilidad

mayor o igual que 0.99 exista al menos una muestra con todos los puntos

pertenecientes al modelo. Se puede calcular dinámicamente como:

∞=N 0=iter

Mientras iterN > hacer:

(a) Elegir una muestra y contar el número de ‘inliers’ o puntos validos.

(b) Poner )_/_(1 totalespuntosinliersnum−=ε .

(c) Recalcular ))1(1log(/)1log( SpN ε−−−= con 99.0=p

(d) 1+= iteriter

(A1.13)

(iv) A continuación se recalcula la matriz de Homografía para todas las correspondencias

clasificadas como ‘inliers’ minimizando la función de coste de máxima verosimilitud,

usando el algoritmo de Levenberg-Marquardt (Apartado A.2.2).

(v) Finalmente, se seleccionan nuevos puntos de interés correspondientes usando la

matriz de Homografía obtenida en el paso anterior.

(vi) Los pasos (iv) y (v) pueden iterarse hasta que el número de correspondencias se

estabiliza

Anexo A

- 208 -

A.2.2. Estimación Levenberg-Marquardt

La estimación de máxima verosimilitud de la matriz de Homografía depende del modelo de

error que se emplee. Si se supone la hipótesis antes mencionada, de que el error en las medidas sobre

la imagen sigue una distribución Gaussiana de media cero y de una cierta desviación típica, entonces

la estimación de máxima verosimilitud consiste en minimizar una distancia geométrica que no es otra

que el error de retroproyección. Si ip y 'ip son las características extraídas en ambas imágenes; y

además, las características estimadas ip̂ y 'ˆ ip son aquellas que satisfarían con exactitud la

homografía, entonces la estimación de máxima verosimilitud consiste en minimizar:

iii

iiii pHpppdppd ˆ'ˆ/)'ˆ,'()ˆ,( 22 ⋅=∑ + (A2.1)

Si el error de retroproyección viene definido por la ecuación(A2.1), el error de transferencia

entre imágenes, medido como una distancia geométrica viene determinado por:

∑ +≈∑ + −

iiiii

iiiii HppdpHpdppdppd 22122 ),'()',()','(),( (A2.2)

donde ip y 'ip son las características verdaderas extraídas sin error Gaussiano.

La diferencia entre el error de retroproyección y el error de transferencia se puede observar en

la figura siguiente.

Figura A2-1: Comparación de errores de transferencia y retroproyección.

Para minimizar la estimación de máxima verosimilitud se emplea el método iterativo de

Levenberg-Marquardt (abreviado LM). Éste método es una variación del método iterativo de Gauss-

Newton. Dicho método se aplica en esta Tesis para recalcular la matriz de Homografía y mejorar la

estimación de ésta.

El algoritmo LM es una técnica iterativa que permite calcular el mínimo de una función que es

expresada como suma de cuadrados de funciones no lineales. Esta técnica se ha convertido en un

H

H-1

ip'ip

ip

'ipip̂ ip'ˆ

H, H-1

Anexo A

- 209 -

estándar para resolver problemas de mínimos cuadrados no-lineales y se puede implementar como

variante del método de Gauss-Newton.

El método LM define una función f que mapea un vector mRP∈ a un vector de medida

estimado nRxPfx ∈= ˆ/)(ˆ . De modo que, a partir de un parámetro estimado Pp ∈0 y de un vector de

medida x se puede encontrar el vector *P que mejor satisface la función f , simplemente minimizando

las distancias cuadradas xxT ˆ−=εε . La base del algoritmo LM es una aproximación lineal de la

función f en el entorno de vecindad de P . Esta aproximación se puede definir como un desarrollo en

serie de Taylor del tipo:

ppp JPfPPf

PfPf Δ+=Δ∂

∂+≈Δ+ )(

)()()( (A2.3)

Como todo método de optimización no lineal es iterativo, de modo que se inicializa a un punto de

comienzo Pp ∈0 , y se obtienen una serie de vectores ,...,, 21 pp que convergen hacia el valor local *P

que minimiza f . Así, en cada paso se requiere encontrar pΔ que minimiza la cantidad:

ppp JJPfxPfx Δ−=Δ−−≈Δ+− ε)`)()( (A2.4)

El pΔ obtenido finalmente, será la solución al problema de mínimos cuadrados. El valor mínimo se

obtiene cuando ( ) 0=−Δ εpT JJ y por lo tanto se cumple que:

εTp

T JJJ =Δ (A2.5)

Cuando se quiere aplicar el método LM para el cálculo de Homografías basta definir un vector

de medidas ( )TTi

Tii ppX ',= , a partir de todos los pares de puntos correspondientes en las dos

imágenes de las cuales se quiere calcular la Homografía H . En este caso, el vector parámetro se

define como ( )TTn

TT pphP ˆ,...,ˆ, 1= donde los valores ip̂ son los valores estimados de los puntos en la

primera imagen (Figura A2-1), y h es un vector de entradas de la Homografía H . Así, se debe estimar

simultáneamente la Homografía H y los parámetros de cada punto en la primera imagen. Además, la

función f se puede definir como la función que mapea el vector parámetro P a ( )TTi

Tii ppX 'ˆ,ˆˆ = . Si se

define la matriz Jacobiana como:

Anexo A

- 210 -

⎥⎥⎥⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢⎢⎢⎢

⎣

⎡

∂∂

∂∂

∂∂

∂∂

∂∂

∂∂

=

nnn

pX

hX

pX

hX

pX

hX

J

ˆˆ

00ˆ

0.........

...ˆˆ

0ˆ

0.0ˆˆˆ

222

111

(A2.6)

Y el vector de error viene dado por ( ) XXTT

nT ˆ,...,1 −== εεε , entonces la ecuación (A2.5) se

puede poner como:

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡=

⎥⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢⎢

⎣

⎡

Δ

ΔΔ

⋅

⎥⎥⎥⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢⎢⎢⎢

⎣

⎡

∂∂

∂∂

∂∂

∂∂

∂∂

∂∂

→=Δ

nnp

p

h

nnn

p

pX

hX

pX

hX

pX

hX

Jε

εε ...

...

ˆˆ

00ˆ

0.........

...ˆˆ

0ˆ

0.0ˆˆˆ

1

ˆ

1ˆ2

22

111

(A2.7)

Cuando se quiere aplicar el método LM para el cálculo de Homografías basta por lo tanto

resolver el sistema de la ecuación (A2.7), para ello se aplica el siguiente algoritmo:

(i) Inicializar una constante λ a 0.001.

(ii) Computar la matriz Jacobiana J a partir de (ver ecuación (A2.6)):

i

ii

ii p

XB

hX

Aˆ

ˆ,

ˆ

∂∂

=∂∂

=

Computar cada componente del vector de error como:

iii XX ˆ−=ε

(iii) Computar los valores intermedios:

∑ ∑ ∑ ⋅⋅= −

iin

Ti AxxAU 1

1 ),...,diag(

donde ∑ ∑ ⋅),...,diag( 1 nxx es una matriz de covarianza de iX

)..,diag( 1 nV,.VV = donde ∑ ∑ ⋅= −in

Tii BxxBV 1

1 ),...,diag(

)..,( 1 nW,.WW = donde ∑ ∑ ⋅= −in

Tii BxxAW 1

1 ),...,diag(

∑ ∑ ∑ ⋅⋅= −

iin

TiA xxA εε 1

1 ),...,diag(

TTBn

TBB ,. )..,( 1 εεε = donde ∑ ∑ ⋅= −

inT

iBi xxB εε 11 ),...,diag(

( ) 1* −= iii VWY

Anexo A

- 211 -

(iv) Computar hΔ a partir de la ecuación:

∑−=Δ⎟⎠⎞

⎜⎝⎛

∑−i

BiiAhi

Tii YWYU εε*

(v) Computar cada ip̂Δ a partir de la ecuación:

( ) ( )hT

iBiiip WV Δ−=Δ−ε

1*ˆ

(vi) Actualizar el parámetro vector añadiendo iph ˆ,ΔΔ y calculando el nuevo vector de error.

(vii) Si el nuevo error es menor que el viejo, entonces se acepta el nuevo valor de los parámetros, se disminuye el factor de λ en 10 y se vuelve al paso (ii).

(viii) Si el nuevo error es mayor que el viejo, entonces se vuelve a tomar el viejo valor de los parámetros, se incrementa el valor de λ en 10, y se vuelve al paso (iii).

A.3. Proceso de formación de la imagen

Si el movimiento de un cuerpo rígido está definido en el espacio Euclídeo, el marco

matemático para definir la gran mayoría de conceptos, teorías y procesos de visión por computador, y

en particular el proceso de formación de una imagen, es el espacio proyectivo. A continuación, se

comenta el proceso de registro de una imagen, tomando como base matemática el espacio proyectivo y

como modelo físico, el modelo de cámara de pin-hole.

A.3.1. Modelo de cámara

El modelo de cámara pin-hole es uno de los más sencillos que podemos plantearnos, y es de

mucho interés, ya que modela razonablemente bien una cámara común con una formulación

matemática muy simple.

El modelo de cámara pin-hole (Figura A3-1) supone que todo punto de un objeto 3D emite un

rayo de luz reflejado que es proyectado al sensor de la cámara, atravesando un único punto (llamado

centro óptico), independientemente del punto de origen 3D y del punto de impacto en el sensor. Ésto

hace el modelo matemático de la cámara muy simple, ya que de una aplicación directa del teorema de

Thales de Mileto, podemos sacar las ecuaciones.

Anexo A

- 212 -

ZYfy

ZXfx

=

= (A3.1)

Las coordenadas del punto 3D del espacio que se proyecta, serán ( )ZYXPC ,, , donde el eje de

la coordenada Z es la línea que pasa por el centro óptico O (origen del sistema de coordenadas de la

cámara) y es perpendicular al plano de proyección. Y donde las coordenadas del punto proyectado en

el sensor son ( )yxp , . Estas coordenadas están referenciadas respecto al origen del sistema de

coordenadas de la imagen situado en o (punto principal, centro de la imagen) y dónde f es la distancia

focal, es decir, la distancia que separa el centro óptico del plano imagen.

Figura A3-1: Modelo geométrico de cámara pin-hole.

Si además, transformamos esas dos ecuaciones, en álgebra matricial con coordenadas

homogéneas, se tiene:

⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

⋅⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡=

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡=

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡

10100000000

1ZYX

ff

ZfYfX

yx

Z (A3.2)

Si se descompone la matriz de 3x4, y además se sustituye el valor de Z que es la profundidad

del punto P, la cual se desconoce, por un parámetro λ.

Anexo A

- 213 -

⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

⋅⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡⋅⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡=

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡=

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡

1010000100001

1000000

1ZYX

ff

ZfYfX

yx

λ (A3.3)

Y se denotan las matrices como Kf y Π0, entonces el modelo de proyección geométrico de pin-

hole se puede denotar como:

Cf PKp ⋅Π⋅= 0 (A3.4)

La formula matemática de la matriz, Kf, puede ser más complicada e incluso puede involucrar

más parámetros además de a la distancia focal f. Esta matriz denota lo que más adelante se conocerán

como parámetros intrínsecos de la cámara. La matriz Π0 representa la perspectiva empleada en la

proyección.

A.3.2. Extensión del modelo

El modelo de pin-hole mostrado anteriormente es un modelo que explica la técnica de

formación geométrica de una imagen en una cámara dónde el plano imagen está centrado en el centro

óptico y dónde el eje perpendicular a éste está alineado con el eje óptico (Figura A3-1). Sin embargo,

como ya se comentó, generalmente, la matriz de proyección depende de más factores que la distancia

focal, y esto es debido porque no todo es tan ideal como se representa en el modelo simplificado de

pin-hole.

En la práctica, cuando se capturan imágenes con una cámara CCD, las proyecciones de los

puntos 3D en la imagen se obtienen en términos de píxeles ( )vup , , y el origen de coordenadas del

marco de la imagen se fija en la esquina superior izquierda de ésta. Este hecho, obliga a que haya que

ampliar o hacer ciertas modificaciones sobre el modelo simplificado de pin-hole para que éste refleje

de alguna manera la relación entre las coordenadas de un punto proyectado en el plano imagen ( )yxp , ,

medidas en milímetros, y las coordenadas de este mismo punto en la imagen formada ( )vup , , medidas

en píxeles. Si se tiene en cuenta que el tamaño de la imagen no coincide con el tamaño del sensor

CCD, entonces se puede entender fácilmente que la posición de un mismo punto 3D proyectado en el

plano imagen será diferente si se mide en términos del CCD o en términos de la imagen. Así, las

ecuaciones que relacionan posición de un punto en la imagen con posición de ese mismo punto

proyectado sobre el CCD, son:

Anexo A

- 214 -

sy

sx

yysymMv

xxsxnNu

=→=

=→= (A3.5)

Dónde n y m son las dimensiones del sensor CCD, y dónde N y M son las dimensiones de la

imagen. Por lo tanto, N/n y M/m son un factor de escalado horizontal sx y vertical sy de la imagen

respecto al sensor CCD (Figura A3-2).

Figura A3-2: Transformaciones de coordenadas milímetros a coordenadas píxel.

Si además, se aplica el hecho de que las coordenadas en píxeles ( )vup , se referencian respecto

a un sistema de coordenadas en la esquina superior izquierda de la imagen y no respecto a un sistema

de coordenadas centrado en el punto principal de proyección ),( yx ooo , entonces:

yy

xx

oysvoxsu

+=+=

(A3.6)

Además, en el modelo de cámara de pin-hole ideal se asume que el origen de coordenadas en

el plano imagen o está alineado con el centro óptico O. En la práctica normalmente esto no se suele

dar, y el origen de coordenadas en el plano imagen suele estar desplazado respecto al ideal, situado en

el centro geométrico de la imagen. Es decir, existe una traslación o desplazamiento entre el centro

geométrico de la imagen y el punto principal. Y por lo tanto, ),( yx ooo no será el centro geométrico de

la imagen, sino el punto principal real obtenido en el proceso de proyección, y que se calculará a partir

de técnicas de calibración.

Si además, juntamos las ecuaciones (A3.5) y (A3.6) y las modelamos en álgebra matricial, se

tiene:

Coordenadas mm

Coordenadas píxeles

u

v

Anexo A

- 215 -

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡⋅⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡=

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡

11000

0

1yx

osos

vu

yy

xx

(A3.7)

Cuando el píxel se considera cuadrado, los factores de escalado horizontal sx y vertical sy

coinciden, son iguales. Aunque por lo general se suponen píxeles rectangulares, puesto que las

dimensiones del CCD suelen ser rectangulares, si se generaliza más aún, y se supone que los píxeles

no son rectangulares, habría que añadir un parámetro más, que se conoce como el factor de ‘skew’ sθ.

Así, la relación entre coordenadas píxel de la imagen y coordenadas en milímetros de la cámara es:

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡⋅⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡=

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡

11000

1yx

ososs

vu

yy

xx θ

(A3.8)

Conviene resaltar que en la mayoría de aplicaciones prácticas suele asumirse que se trabaja

con píxeles rectangulares, y por lo tanto el factor de ‘skew’ es cero.

Si ahora se combinan el modelo de proyección simplificado de pin-hole, y la extensión que se

ha hecho para adecuarlo a la formación de imágenes en cámaras CCD. Es decir, se le incorpora al

modelo, los parámetros de escalado y traslación del punto principal, se obtiene:

⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

⋅⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡⋅

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡⋅

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡=

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡

1010000100001

1000000

1000

1ZYX

ff

ososs

vu

yy

xx θ

λ (A3.9)

Y si se denotan las matrices como Ks, Kf y Π0, entonces el modelo de proyección geométrico

extendido de pin-hole será:

CCfs PKPKKp ⋅Π⋅=⋅Π⋅⋅= 00 (A3.10)

La matriz 3x4, Π0, representa la matriz de proyección que representa la perspectiva empleada

para proyectar un objeto sobre una cámara con focal f=1, y empleando el punto principal como centro

de la proyección. La matriz triangular superior 3x3, K=Ks ·Kf , se conoce como matriz de calibración

de la cámara (ver Apartado A3.3).

A.3.3. Matriz de calibración

Los parámetros intrínsecos se pueden definir como un conjunto de parámetros necesarios para

caracterizar la óptica, geometría y características digitales de la cámara que adquiere las imágenes.

Anexo A

- 216 -

Para un modelo de cámara de pin-hole, como el definido anteriormente, se necesitan 3 conjuntos de

parámetros intrínsecos. Estos tres conjuntos de parámetros intrínsecos van a permitir definir la

proyección de perspectiva de la cámara, las transformaciones entre sistemas de coordenadas y las

distorsiones geométricas de la óptica de la cámara. Para calcular los parámetros tanto intrínsecos como

los conocidos como extrínsecos, se emplea lo que se conoce como proceso de calibración.

Los parámetros intrínsecos que componen la matriz de calibración, K, tienen la siguiente

interpretación:

xo : coordenada en x del punto principal (se mide en píxeles).

yo : coordenada en y del punto principal (se mide en píxeles).

xfs : tamaño efectivo en la dirección horizontal (se mide en píxeles)

yfs : tamaño efectivo en la dirección vertical (se mide en píxeles)

yx ss / : ratio de aspecto (vale 1 si los píxeles son cuadrados).

θfs : factor de ‘skew’ del píxel

La matriz de calibración K se puede calcular como:

Rofsofsfs

K

x

yy

xx

∈⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡=

331000

θ

(A3.11)

Esta matriz describe los parámetros intrínsecos de la cámara, tales como son la posición del

centro óptico 2),( Rooo yx ∈= , el tamaño del píxel 2),( Rsss yx ∈= , el factor θs , así como la

longitud focal f . La matriz de calibración permite transformar las coordenadas métricas 2),( Ryx ∈

en coordenadas de la imagen , 2),( Rvu ∈ , medidas en píxeles. Es decir:

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡⋅=

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡

11yx

Kvu

(A3.12)

Se supondrán que los parámetros intrínsecos son conocidos, y que para obtenerlos se ha

partido de las especificaciones ópticas del fabricante, así como se ha sometido a la cámara a un

proceso de calibración inicial que determine una estimación de la focal de la cámara [Bouguet-2007].

En este documento anexo se comentan los costes de ejecución computacionales de algunos de los métodos y algoritmos expuestos en esta Tesis. Los costes aquí expuestos son orientativos para algunos de los ejemplos abordados en la Tesis. No obstante se indica el lenguaje o programa de simulación, así como el procesador que se emplea en cada caso.

B.1. Costes Computacionales

En este apéndice se muestra con una finalidad orientativa, el coste computacional de algunas

de las etapas, procedimientos y algoritmos implementados, en los métodos y técnicas de

procesamiento desarrolladas y propuestas en esta Tesis. Abordando el coste computacional desde una

perspectiva de análisis del coste temporal de ejecución sin analizar el consumo de memoria requerida.

Algunos de los algoritmos comentados a lo largo de la Tesis han sido implementados en

lenguaje C/C++ y otros sobre plataforma Matlab, en ambos casos sobre un sistema operativo Windows

sobre arquitectura Pentium.

El tiempo de ejecución de un algoritmo depende de cuatro factores:

• Tamaño que tenga el conjunto de los datos de entrada.

• Contenido de los datos de entrada, que hace que el tiempo de ejecución oscile entre el

mejor y el peor caso, computacionalmente hablando.

• El código generado por un compilador, es decir número de instrucciones a ejecutar.

• El computador concreto sobre el que se ejecuta dicho código, es decir el repertorio de

instrucciones del que dispone la arquitectura del computador y el número de instrucciones

que es capaz de operar por unidad de tiempo.

Por lo tanto, se puede deducir que ejecutando el mismo algoritmo sobre una misma máquina el

tiempo de ejecución de éste oscilará entre dos cotas: una cota de tiempo inferior y una cota de tiempo

superior que sólo dependerá de los dos primeros factores de entre los cuatro comentados

anteriormente. Hay que tener en cuenta que el análisis computacional de un algoritmo con cierta

complejidad, puede conllevar un estudio en profundidad de los cuatro factores antes comentados.

Cuando un algoritmo tiene asociada una expresión que define su eficiencia computacional en

función del tamaño de los datos de entrada, se dice que el algoritmo tiene un orden de complejidad. De

ahí, que cuando un algoritmo presenta una eficiencia computacional polinómica de primer orden, se

dice que tiene un orden de complejidad lineal, si es de segundo grado se dice que su orden de

complejidad es cuadrático, etc.

Sin embargo, con en este apéndice no se pretende realizar un análisis detallado de los tiempos

de computación desde un punto de vista de tamaño de los datos a analizar. Ésto es así, porque en esta

ocasión no es posible expresar el tamaño del conjunto de datos de entrada con un conjunto simple de

parámetros, como por ejemplo sería el caso de tener un algoritmo que calcule la suma de dos matrices,

Anexo B

- 220 -

en cuyo caso el tamaño de datos vendría dado por dos parámetros que representarían las dimensiones

de las matrices a operar.

Además, como consideraciones generales hay que tener en cuenta que aunque un algoritmo

siempre puede ser optimizable desde un punto de vista de reducción de los tiempos computacionales,

en la práctica, esto radica en un aumento en el consumo de memoria. Es decir, a mayor eficiencia

computacional mayor consumo en memoria y viceversa.

Por lo tanto, más bien y sin otra pretensión, con este apéndice sólo se pretende ilustrar

comparativamente algunos de los métodos y algoritmos implementados, desde un punto de vista de

tiempo de ejecución.

B.1.1. Procesos de segmentación color

A continuación se muestra un pequeño análisis de los tiempos computacionales de los

algoritmos de procesamiento que se emplean en los métodos de segmentación color mostrados en el

Capítulo 4.

Los métodos de segmentación RGB y HSV se han desglosado en tres etapas básicas: etapa de

preprocesado de la imagen y detección de umbrales, etapa de segmentación y coloreado de la imagen,

etapa de clusterizado o agrupamiento entre regiones segmentadas similares. Y se han evaluado, los

tiempos de ejecución de los algoritmos implementados en cada una de esas tres etapas, en algunos de

los experimentos mostrados en el Apartado 4.1.

El coste computacional que aquí se muestra se ha expresado en segundos, y los métodos se

han implementado sobre plataforma de simulación Matlab, corriendo sobre un procesador Pentium

Centrino 1.6Mhz.

Figura 4-18 Figura 4-9 Figura 4-10 Cálculo umbrales 0.931 1.081 0.932

Segmentación 0.181 0.191 0.18 Clusterizado 10.665 9.954 15.732

Tabla B-1: Coste temporal de la segmentación RGB con 3 umbrales en imágenes 640x480.



Tabla B-2: Coste temporal de la segmentación RGB con 1 umbral en imágenes 640x480.

Anexo B

- 221 -

Como se puede observar para el método de segmentación mostrado en el Apartado 4.1.1, la

etapa de clusterizado, que implementa las funciones encargadas de agrupar regiones de similares

características, que permiten reducir la sobresegmentación en la imagen, requieren del 90% del coste

de ejecución del algoritmo. Además, si se comparan procesos de segmentación dónde se requieren

menor número de umbrales para llevar a cabo el proceso de segmentación (Tablas B-1, B-2) se

observa como se produce una disminución importante en el tiempo computacional de clusterizado, y

por lo tanto una reducción en el coste total del proceso de segmentación. Así, los tiempos se pueden

ver reducidos entorno al 60%-70% del coste de ejecución.

Realizando el mismo análisis con el método de segmentación HSV (mostrado en el Apartado

4.1.1.2) cuyo proceso de clusterizado, únicamente, se lleva a cabo considerando una de las tres

componentes del espacio de color, en concreto la componente matiz, se obtienen los tiempos de

ejecución mostrados en las tablas B-3 y B-4. Al igual que antes el proceso de clusterizado es la etapa

más crítica en la eficiencia del método de segmentación y su coste computacional requiere entorno al

80% del coste de ejecución total del algoritmo. Sin embargo, el empleo de una única componente para

llevar a cabo el proceso de clusterizado ha permitido reducir entre un 30%-40% el tiempo de ejecución

total.



Tabla B-3: Coste temporal de la segmentación HSV con 3 umbrales en imágenes 640x480.



Tabla B-4: Coste temporal de la segmentación HSV con 1 umbral en imágenes 640x480.

Del mismo modo, se ha llevado a cabo un pequeño análisis computacional del método de

segmentación combinado RGB-HSV (mostrado en el Apartado 4.1.1.3), para compararlo con los otros

dos métodos anteriores y determinar cuánto coste computacional adicional (Tabla B-5) requiere este

método para mejorar el proceso de segmentación de imágenes color.

Este método requiere de una etapa adicional más que implementa todos los algoritmos

encargados de depurar la segmentación RGB a partir de los umbrales detectados para una

segmentación HSV y del cálculo del histograma V/S.

Anexo B

- 222 -


Segmentación 0.181 0.04 0.18 Depurar RGB con HSV 10.776 10.825 11.797

Clusterizado 10.665 3.095 15.732 Tabla B-5: Coste temporal de la segmentación RGB-HSV con umbral en imágenes 640x480.

B.1.2. Proceso de detección de discontinuidades con luz estructurada.

De igual modo a como se ha procedido para los métodos de segmentación implementados,

ahora se muestra un pequeño análisis de los tiempos computacionales de los algoritmos de

procesamiento que se emplean en el método de detección de oclusiones por discontinuidades en

patrones de luz estructurada, mostrado en el apartado 4.2.2.

Este método se ha desglosado en cinco etapas básicas: etapa de preprocesado de la imagen y

aproximación poligonal para cada uno de los contornos de los patrones de luz, etapa de computación

de momentos inerciales y perímetros, etapa de depuración de las primitivas poligonales (poli-líneas)

para eliminar aquellas cuyo perímetro o número de puntos aportan poca información, etapa para

obtener puntos extremos o puntos críticos que definen cada primitiva poligonal, y finalmente la etapa

para aproximar discontinuidades dónde se realiza el proceso de agrupamiento de puntos o clustering y

el cálculo de direcciones de discontinuidad.

Figura 4-34 Figura 4-35a Figura 4-35b Figura 4-35c Aprox. Poligonal 1.271 1.318 1.176 1.073

Obtener Momentos 0.305 0.288 0.278 0.265 Depurar polígonos 5.345 5.862 4.091 4.104

Obtener puntos extremos 4.664 4.342 3.505 3.310 Aprox. discontinuidades 166.559 136.86 98.534 90.020

Tabla B-6: Coste temporal del cálculo de discontinuidades con luz estructurada.

El coste computacional que aquí se muestra se ha expresado en milisegundos, y los métodos se

han implementado sobre lenguaje C/C++, corriendo sobre un procesador Pentium IV 3.8Mhz.

B.1.3. Proceso de estimación de posiciones de la cámara para evitar oclusiones.

En este apartado, se muestran algunos de los costes computacionales que ha empleado el

método de evaluación de imágenes virtuales para estimar el movimiento, evitando las posiciones de la

cámara dónde se pueden producir oclusiones.

Anexo B

- 223 -

Destacar que primero se han evaluado los tiempos de ejecución en dos fases. Una primera fase

dónde se han analizado los tiempos computacionales para la extracción de características y una

segunda fase dónde se han analizado los tiempos de cómputo de las imágenes virtuales y la variación

de distancias entre cada una de las imágenes virtuales obtenidas, las cuales simulan una posición

ficticia de cámara.

Los costes computacionales que aquí se presentan se ha expresado en segundos, y los métodos

se han implementado sobre Matlab, corriendo sobre un procesador Pentium Centrino 1.6Mhz.

Figura 5-5 Figura 5-16c Figura 5-22c Figura 5-29c Detección de bordes 1.913 1.813 2.434 1.652 Aprox. Segmentos 1.863 1.783 3.125 2.002 Depurar Segmentos 0.02 0.03 0.02 0.02 Obtener distancias 0.241 0.3 2.293 0.08

Tabla B-7: Coste temporal del cálculo de distancias entre segmentos de borde.

En la segunda fase, se han evaluado los tiempos para el cómputo de imágenes virtuales que

representan las proyecciones de cada una de las características detectadas en la fase anterior. Las

etapas básicas en esta fase son: el cálculo de las matrices de transformación para cada una de las

posiciones virtuales de la cámara en el espacio de búsqueda, la transformación calculada sobre cada

una de las características que definen los objetos (cálculo de proyecciones sobre imagen virtual) y

finalmente el cálculo y evaluación de distancias entre las características para cada una de las imágenes

virtuales.

Los tiempos de ejecución variarán dependiendo del número de posiciones virtuales de la

cámara que se desea analizar en el espacio de búsqueda. El tiempo de evaluación de distancias

depende del número de características extraídas a partir de la imagen inicial. La tabla B-8 muestra los

tiempos computacionales de un movimiento vertical que consta de diez imágenes virtuales, y de un

movimiento horizontal que consta de veinte imágenes virtuales. El tiempo de ejecución es

independiente del tipo de movimiento y únicamente depende del número de posiciones a evaluar, es

decir número de imágenes virtuales que es necesario computar, además de depender del número de

características extraídas. En el ejemplo mostrado en la tabla B-8, el computo de distancias para una

imagen virtual es aproximadamente 1.57segundos, sin embargo en el ejemplo mostrado en la tabla B-9

el tiempo de ejecución es de 0.24segundos. Esto es del orden de 6 veces más pequeño.

Movimientos Figura 5-24 Imágenes virtuales para Figura 5-22 10 Imágenes virtuales 20 Imágenes virtuales

Matrices de transformación posiciones virtuales

0.03 0.04

Transformación de características 0.151 0.23 Evaluación de distancias 15.71 (1.57) 31.385

Tabla B-8: Coste temporal del cálculo de imágenes virtuales para la Figura 5-22.

Anexo B

- 224 -

Movimientos Figura 5-17 Imágenes virtuales para Figura 5-16 10 Imágenes virtuales 20 Imágenes virtuales

Matrices de transformación posiciones virtuales

0.04 0.05

Transformación de características 0.07 0.11 Evaluación de distancias 2.444 (0.24) 4.927

Tabla B-9: Coste temporal del cálculo de imágenes virtuales para la Figura 5-16.

-225-

Bibliografía

[Abutaleb-1989] Abutaleb, A.S. (1989). “Automatic thresholding of gray-level pictures using two-dimensional entropy”. Computer Vision, Graphics, and Image Processing. Vol. 47, Num. 1, pp. 22–32 .

[Adan-2004] Adán A., Adán M. (2004). “A flexible similarity measure for 3D shapes recognition”. IEEE Transactions on Pattern Analysis and Machine Intelligence. Vol. 26. Num. 11, pp. 1507-1520.

[Androutsos-1999] Androutsos, D., Plataniotis, K.N, Venetsanopoulos, A.N. (1999). “A novel vector-based approach to color image retrieval using a vector angular-based distance measure”. Computer Vision and Image Understanding, Vol. 75, Num. 1-2, pp. 45-58.

[Angulo-2003] Angulo, J. (2003). “Morphologie mathématique at indexation d’images couleur. Application à la microscopie en biomedicine”. Ph. D. Tesis Escuela de Minas de París.

[Beghadi-1995] Beghdadi, A., Negrate, A.L., and De Lesegno, P.V. (1995). “Entropic thresholding using a block source model”. Graphical Models and Image Processing. Vol. 57, Num. 3, pp. 197-205.

[Besl-1988] Besl., P.J. (1998). “Surfaces In Range Image Understanding”. Springer-Verlag Inc., New York. ISBN 0-387-96773-7.

[Beucher-1992] Beucher, S. (1992). “The Watershed transformation applied to image segmentation”. Scanning Microscopy Internarional. Num. 6, pp. 299-314.

[Bhanu-2000] Bhanu, B., Lin, Y. (2000). “Recognition of Occluded Targets Using Stochastic Models”. Proc. of Workshop IEEE on Computer Vision Beyond the Visible Spectrum: Methods and Applications (CVBVS2000). Pp 72-82.

[Bhanu-2003] Bhanu, B., Lin, Y. (2003). “Stochastic models for recognition of occluded targets”. Pattern Recognition. Vol. 36. Num. 12, pp. 2855-2873.

[Bicego-2004] Bicego, M., Murino, V. (2004). “Investigating Hidden Markov Models Capabilities in 2D Shape Classification”. IEEE Transactions on Pattern Analysis and Machine Intelligence. Vol. 26, Num. 2, pp 281-286.

[Boshra-2000a] Boshra, M., Bhanu, B. (2000). “Predicting performance of object recognition”. IEEE Transactions on Pattern Analysis and Machine Intelligence. Vol. 22, Num. 9, pp 956-969.

[Boshra-2000b] Boshra, M., Ismail, M.A. (2000). “Recognition of occluded polyhedra from range images”. Pattern Recognition. Vol. 3. Num. 8, pp. 1351-1367.

[Bouguet-2007] Bouguet, J.Y. (2007). “Camera Calibration Toolbox for Matlab”. http://www.vision.caltech.edu/bouguetj/calib_doc/

[Boykov-1998] Boykov, Y., Veksler, O., Zabih, R., (1998). “Markov Random Fields with Efficient Approximations”. Proc. of IEEE Conference on Computer Vision and Pattern Recognition (CVPR’98). Santa Barbara (USA). pp. 648-655.

[Boykov-1999] Boykov, Y., Huttenlocher, D. (1999). “A new Bayesian Framework for Object Recognition”. Proc. of IEEE Conference on Computer Vision and Pattern Recognition (CVPR’99). Ft. Collins (USA). Vol. 2, pp. 517-523.

[Canny-1986] Canny, J.F. (1986). “A computational approach to edge detection”. IEEE Transactions .on Pattern Analysis and Machine Intelligence. Vol. 6, Num. 8, pp.112-131.

Bibliografía

- 226 -

[Chan-1991] Chan, F.H.Y., Lam, F.K., and Zhu, H. (1991). “Adaptive thresholding by variational method”. IEEE Transactions on Image Processing. Vol. 7, Num. 3, pp. 468-473.

[Chan-2002] Chan, C.J., Chen, S.Y. (2002). “Recognition Partially Occluded Objects Using Markov Model”. International Journal of Pattern Recognition and Artificial Intelligence. Vol. 16. Num. 2, pp 161-191.

[Chanda-1988] Chanda B., Majumder, D.D. (1988). “A note on the use of gray level co-occurrence matrix in threshold selection”. Signal Processing. Vol. 15, pp. 149-167.

[Chang-1994] Chang, C., Chen, K., Wang, J., and Althouse, M.L.G. (1994). “A relative entropy based approach in image thresholding”. Pattern Recognition. Vol. 27, pp. 1275-1289.

[Chavez-1999] Chavez, E., Navarro G., Baeza-Yates R., Marroquín J. (1999). “Searching in metric spaces”. Technical Report TR/DCC-99-3, Dept. of Computer Science, Univ. of Chile.

[Cheng-1993] Cheng, S.C., and Tsai, W.H. (1993). “A neural network approach of the moment-preserving technique and its application to thresholding”. IEEE Transactions on Computers.Vol. 42, Num. 4, pp. 501-507.

[Cheng-1999a] Cheng, H.D., Chen, Y.H., Sun, Y. (1999). “A novel fuzzy entropy approach to image enhancement and thresholding”. Signal Processing. Vol. 75, Num. 3, pp. 277-301.

[Cheng-1999b] Cheng H.D., Chen, Y.H. (1999). “Fuzzy partition of two-dimensional histogram and its application to thresholding”. Pattern Recognition. Vol. 32, Num. 5, pp. 825-843

[Cheriet-1998] Cheriet M, Said J.N, Suen C.Y (1998). “A recursive thresholding technique for Image Segmentation”. IEEE Transactions on Image Processing. Vol. 6, Num. 7, pp. 918-921.

[Cottier-1994] Cottier, J.C. (1994). “Extraction et appariements robustes des points d’intéret de deux images non etalonnées “. Technical report. INRIA-Rhone-Alpes.

[Cover-1991] Cover T., Thomas J. (1991). “Elements of Information Theory”. Wiley Series in Telecomunications.

[Cumani-1991] Cumani, A. (1991). “Edge detection in multispectral images”. Graphical Models and Image Processing. Vol. 53, Num. 1, pp. 40-51.

[Douglas-1973] Douglas D., Peucker T. (1973). “Algorithms for the reduction of the number points required to represent a digitized line or its caricature”. The Canadian Cartographer. Vol. 10, Num. 2, pp. 112-122.

[Edwards-1997] Edwards, J., Murase, H. (1997). “Appearance Matching of Occluded Objects Using Coarse-to-fine Adaptive Masks”. Proc. of Conference IEEE on Computer Vision and Pattern Recognition (CVPR’97). Pp. 533-539.

[El-Sonbaty-2003] El-Sonbaty, Y., Ismail, M.A. (2003). “Matching Occluded Objects Invariant to

Rotations, Translations, Reflections, and Scale Changes”. Lecture Notes in Computer Science. Vol 2749, pp 836-843.

[Faugeras-1988] Faugeras, O., Lustran, F. (1988). “Motion and structure from motion in piece-wise planar environment”. Internacional Journal of Pattern Recognition and Artificial Intelligence. Num. 3, pp. 485-508.

[Faugeras-1993] Faugeras, O. (1993). “Three-dimensional computer Vision”. Ed. MIT Press.

Bibliografía

- 227 -

[Favaro-2002] Favaro, P., Soatto, S. (2002). “Learning Shape from focus”. Proc. of 7th European Conference on Computer Vision (ECCV’02)”. Vol. 2351, pp. 823-824.

[Felsberg-2004] Felsberg, M., Granlund, G.H. (2004). “POI detection using channel clustering and the 2 energy tensor”. Lecture Notes in Computer Science. Vol. 3175, pp. 103-110.

[Fischler-1981] Fischler, A.M., Bolles, R.C. (1981). “Random Sample Consensus: A Paradigm for Model Fitting with Applications to Image Analysis and Automated Cartography”. Graphics and Image Processing. Vol. 24. Num. 6, pp. 381-395.

[Flynn-1993] Flynn, P.J., Jain, A.K. (1993). “3D object recognition using invariant feature indexing of interpretation tables”. Image Understanding. Vol. 55, Num. 2, pp. 119-129.

[Gavrila-1992] Gavrila, D., Groen, F. (1992). “3D object recognition from 2D images using geometric hashing”. Pattern Recognition Letters. Vol. 13, Num. 4, pp. 263-278.

[Gil-2002] Gil, P., Manchón, E., Torres, F., Pomares, J., Ortiz, F.G. (2002). “Reconstrucción tridimensional de objetos con técnicas de visión y luz estructurada”. XXIII Jornadas de Automática. Santa Cruz de Tenerife (España). Premio a la mejor comunicación científica.

[Gil-2004] Gil P, Torres F., Ortiz F.G. (2004). “Detección de Objetos por Segmentación Multinivel Combinada de Espacios de Color”. XXV Jornadas de Automática. Ciudad Real (España).

[Gil-2005a] Gil P, Torres F., Ortiz F.G, Reinoso O. (2005). “Detection of partial occlusions of assembled components to simplify the disassembly tasks”. Ed. Springer-Verlag. Journal of Advance Manufacturing Technology. Vol. 30, Num. 5, pp.530-539.

[Gil-2005b] Gil P., Torres F. (2005). “Una aproximación a la percepción de zonas de solapamiento con oclusión mediante luz estructurada”. XXVI Jornadas de Automática . Alicante-Elche (España). Pp. 1069-1076.

[Gil-2006] Gil P., Torres F., Reinoso, O. (2006). “A detection method of intersections for determining overlapping using active vision”. International Conference on Computer Vision Theory and Appplications (VISAPP'2006). Setubal (Portugal). Vol. 1, pp. 501-507.

[Gil-2007a] Gil, P., Torres, F., Reinoso, O. (2007). “Estimation of Camera 3D-position to Minimize Occlusions”. Proc of 4th International Conference on Informatics in Control, Automation and Robotics (ICINCO’07). Angers (Francia). Vol. 2, pp. 331-317.

[Gil-2007b] Gil, P., Pomares, J., Puente, S.T., Diaz, C., Candelas, F., Torres, F. (2007). “Flexioble Multi-Sensorial System for Automatic Disassembly using Cooperative Robots”. International Journal of Computer Integrated Manufacturing. Vol. 20, Num. 8, pp. 757-772.

[Halada-1987] Halada L., Osokov, G.A. (1987). “Histogram concavity analysis by quasicurvature”. Computers and. Artificial Intelligence. Vol. 6, Num. 6, pp. 523-533.

[Harris-1988] Harris, C., Stephens, M.J. (1988). “A combined corner and edge detector”. Proc. of Alvey Vision Conference. Pp. 147-152.

[Hartley-2003] Hartley, R., Zisserman, A. (2003). “Multiple View Geometry in Computer Vision”. Ed. Cambridge University Press.

[Herbert-1995] Herbert M., Ikenchi M., Delingette H. (1995). “A spherical representation for recognition of free-form surfaces”. IEEE Transactions on Pattern Analysis and Machine Intelligence. Vol. 17. Num. 7, pp. 681-690.

Bibliografía

- 228 -

[Hershberger-1993] Hershberger J., Snoeyink J. (1993). “Speeding Up the Douglas-Peucker Line-Simplification Algorithm”. Proc. of 5th Symposium On Data Handling. Pp. 134-143.

[Hertz-1988] Hertz, L., Schafer, R.W. (1988). “Multilevel thresholding using edge matching”. Computer Vision, Graphics, and Image Processing. Vol. 44, Num. 2, pp. 279-295.

[Hetzel-2001] Hetzel, G., Leibe, B., Levi, P., Schiele, B. (2001). “3D Object Recognition from Range Images Using Local Feature Histograms”. Proc. of IEEE on Computer Vision and Pattern Recognition (CVPR’01). Vol. 2, pp. 394-399.

[Hoover-1996] Hoover, A., Gilllian, J.B., Jiang, X., Flynn, P.J., Bunke, H., Goldgof, D., Bowyer, K., Eggert, D.W., Fitzgibbon, A., Fisher, R.B. (1996). “An Experimental Comparison of Range Image Segmentation Algorithms”. IEEE Transactions and Pattern Analysis and Machine Intelligence. Vol. 18, Num. 7, pp. 673-689.

[Huang-1995] Huang L.K., Wang, M.J. (1995). “Image Thresholding by Minimizing the Measures of Fuzziness”, Pattern Recognition, Vol. 28, Num. 1, pp. 41-51.

[Huang-1998] Huang, Z. (1998). “Extensions to the k-means Algorithms for Clustering Large Data Sets with Categorical Values”. Data Ming and Knowledge Discovery. Vol. 2. Num. 3, pp 284-304.

[Huttenlocher-1993] Huttenlocher, D.P., Klanderman, G.A., Rucklidge, W.J. (1993). “Comparing images using the Haussdorf distance”. IEEE Transactions on Pattern Analysis and Machine Intelligence. Vol. 15. Num. 9, pp 850-863.

[Illingworth-1988] Illingworth J., Kittler J. (1988). “A survey of the Hough Transform”. Computer Vision, Graphics and Image Processing. Vol. 44, pp 87-116.

[Jawahar-1997] Jawahar, C.V., Biswas, P.K., Ray, A.K. (1997). “Investigations on fuzzy thresholding based on fuzzy clustering”. Pattern Recognition. Vol. 30, No. 10, pp. 1605-1613.

[Jeong-2001] Jeong, S. (2001). “Histogram-Based Color Image Retrieval”. Psynch 221/EE362 Project Report. http://ise.stanford.edu/class/psych221/projects/02/sojeong/

[Jiang-1998a] Jiang, X., Bunke, H. (1998). “Edge detection in Range Images Based on Scan Line Approximation”. Computer Vision and Image Understanding. Vol. 73, No. 2, pp. 183-199

[Jiang-1998b] Jiang, X., Bunke, H. (1998). “Range image segmentation: Adaptive grouping of edge into regions”. Lecture Notes in Computer Science. Vol. 1352, pp. 299-306.

[Jiang-2000] Jiang, X., Bowyer, K., Morioka, Y., Hiura, S., Sato, K.,,Inokuchi, S.,Bock, M.,Guerra, C., Locke, R.E., du Buf, J.M.H. (2000). “Some Further Results of Experimental Comparison of Range Image Segmentation Algorithms”. Proc. of 16th International Conference on Pattern Recognition.(ICPR’00). Vol. 4, pp. 877-881.

[Jones-1999] Jones III, G., Bhanu, B. (1999). “Recognition of articulated and occluded objects”. IEEE Transactions on Pattern Analysis and Machine Intelligence. Vol. 21. Num. 7, pp 603-613.

[Kapur-1985] Kapur, J.N., Sahoo, P.K., Wong, A.K.C. (1985). “A new method for Gray-level picture thresholding using the entropy of the histogram”. Computer Vision, Graphics, and Image Processing. Vol 29, Num. 3, pp. 273-285.

Bibliografía

- 229 -

[Kirby-1979] Kirby, R.L., and Rosenfeld, A. (1979). “A note on the use of gray level, local average gray level space as an aid in threshold selection”. IEEE Transactions on System, Man and Cybernetics.Vol. 9, pp. 860-864

[Kittler-1986] Kittler, J., Illingworth, J. (1986). “Minimum Error Thresholding”, Pattern Recognition, Vol. 19. Num. 1, pp. 41-47.

[Klette-1998] Klette, R., Schlüns, K., Koschan, A. (1998). “Computer Vision: Three-Dimensional Data from Images”. Ed. Springer-Verlag.

[Krishnapuram-1992] Krishnapuram R., Gupta, S. (1992). “Morphological methods for detection and classification for edges in range images”. Journal of Mathematical Imaging and Vision. Vol. 2, Num. 4, pp. 351-375.

[Krumm-1996] Krumm, J. (1996). “Eigenfeatures for Planar Pose Measurement of Partially Occluded Objects”. Proc. of Conference IEEE on Computer Vision and Pattern Recognition. Pp. 55-60.

[Kurugollu-2001] Kurugollu, F., Sankur B., Harmanci A., (2001). “Color image segmentation using histogram multithresholding and fusion”. Image and Vision Computing. Vol. 19. Num. 13, pp. 175-185.

[Lai-1999] Lai, S.H., Fang, M. (1999). “Robust and Efficient Image Alignment with Spatially Varying Illumination Models”. Proc. of IEEE on Computer Vision and Pattern Recognition (CVPR’99). Vol.2, Pp. 23-25.

[Lamdan-1989] Lamdan, Y. (1989). Geometric hashing. Ph. D. Thesis, New York University, Junio.

[Lamdan-1998] Lamdan, Y., Wolfson, H. (1998). “Geometric hashing: a general and efficient model-based object recognition scheme”. Proc. of the International Conference on Computer Vision., Mumbai (India), pp. 238-249.

[Lee-1995] Lee, J.S., Chen, C.H., Sun, Y.N., Tseng, G.S. (1995). “Occluded objects recognition using multiscale features and Hopfield neural networks”. Lecture Notes in Computer Science. Vol. 974, pp. 171-176.

[Li-1993] Li C.H., Lee, C.K. (1993). “Minimum cross-entropy thresholding”. Pattern Recognition. Vol. 26. Num. 4, pp. 617-625

[Li-1998] Li C.H., Tam, P.K.S. (1998). “An iterative algorithm for minimum cross-entropy thresholding”. Pattern Recognition Letters. Vol. 19. Num. 8, pp. 771-776.

[Lie-1993] Lie, W.N. (1993). “An efficient threshold-evaluation algorithm for image segmentation based on spatial gray level cooccurrences”. Signal Processing. Vol. 33, pp. 121-126.

[Liu-2004] Liu, R., Zhang, H. (2004). “Segmentation 3D Meshes through Spectral Clustering”. Proc. of 12th Pacific Conference on Computer Graphics and Applications. Pp. 298-305.

[Lo-2001] Lo, K.C., Kwok, S.K.W. (2001). “Recognition of 3d planar objects in canonical frames”. Pattern Recognition Letters. Vol. 22, pp 715-723

[Loewe-1999] Loewe, D.G. (1999). “Object recognition from local scale-invariant features”. Proc. of the 7th International Conference on Computer Vision. Kerkyra (Grecia). Pp. 1150-1157.

[Loewe-2004] Loewe, D.G. (2004). “Distinctive Image Features from Scale-Invariant Keypoints”. International Journal of Computer Vision. Vol. 60. Num. 2, pp. 91-110.

Bibliografía

- 230 -

[MacQeen-1967] MacQueen, J. (1967). “Some Methods for Classification and Analysis of Multivariate Observation”. Proc. of Fifth Berkley Symposium on Mathematical Statistics and Probability. Vol. 1, pp. 281-297.

[Magid-1990] Magid A., Rotman, S.R., Weiss, A.M. (1990). “Comment on ‘Picture Thresholding using an Iterative Selection Method”, IEEE Transactions on Systems, Man, and Cybernetics. Vol. 20, pp. 1238-1239.

[Matas-1998] Matas J., Galambos C., Kittler J. (1998). “Progressive Probabilistic Hough Transform”. British Machine Vision Conference (BMVC’98). Southampton (United Kingdom). Pp. 256-265.

[Mardia-1997] Mardia, K.V. (1997). “Deformable Template Recognition of Multiple Occluded Objects”. IEEE Transactions on Pattern Analysis and Machine Intelligence. Vol. 19. Num. 9, pp. 1035-1042.

[Masudur-2004a] Masudur, M.R., Ishikawa, S. (2004). “Eigenwindow Method Updated by a mean eigenwindow”. Proc of SICE Annual Conference .Sapporo. Vol. 1, pp. 513-516.

[Masudur-2004b] Masudur, M.R., Ishikawa, S. (2004). “A robust recognition method for partially occluded/destroyed objects”. Proc. of 6th Asian Conference on Computer Vision. Pp. 984-988.

[Mikolajczyk-2004] Mikolajczyk, K., Schmid, C. (2004). “Scale and Affine Invariant Interest Point Detectors”. International Journal of Computer Vision. Vol. 60. Num. 1, pp. 63-81.

[Mikolajczyk-2005] Mikolajczyk, K., Tuytelaars, T, Schmid, C., Ziseerman, A., Matas, J., Schaffalitzky, F., Kadir, T., Van Gool, L. (2005). “A comparison of affine region detectors”. International Journal of Computer Vision. No. 65(1-2), pp. 43-72.

[Mikolajczyk-2005b] Mikolajczyk, K., Schmid, C. (2005). “A performance evaluation of local descriptors”. IEEE Transactions on Pattern Analysis and Machine Intelligence. No. 27(10), pp. 1615-1630.

[Min-2004] Min, J., Powell, M., Bowyer, K.W. (2004). “Automated Performance Evaluation of Range Image Segmentation Algorithms”. IEEE Transactions on Systems, Man, and Cyberbetics. Part B: Cybernetics. Vol. 34. Num. 1, pp. 263-271.

[Murase-1995] Murase, H., Nayar, S.K. (1995). “Image Spotting of 3D Objects Using Parametric Eigenspace Representation”. Proc. Of 9th Scandinavian Conference on Image Analysis (SCIA’95). Pp. 325-332.

[Nayar-1994] Nayar, S.K., Nakagawa, Y. (1994). “Shape from Focus”. IEEE Transactions on Pattern Analysis and Machine Intelligence. Vol. 16, Num. 8, pp. 824-831.

[Niblack-1986] Niblack, W. (1986). “An Introduction to Image Processing”, pp. 115–116, Prentice-Hall, Englewood Cliffs, NJ.

[Noyel-2007] Noyel, G., Angulo, J., Jeulin, D. (2007). “Random Germs and Stochastic Watershed for Unsupervised Multispectral Image Segmentation”. Lecture Notes in Computer Science. Vol. 4694, pp. 17-24.

[Oh-1999] Oh W., and Lindquist, B. (1999). “Image thresholding by indicator kriging”. IEEE Transactions on Pattern Analysis and. Machine Intelligence. Vol. 21, Num. 7, pp. 590-602

[Ohba-1997] Ohba, K., Ikeuchi, K. (1997). “Detectability, Uniqueness, and Reliablilty of Eigen Windows for Stable Verification of Partially Occluded Objects”. IEEE Transactions on Pattern Analysis and Machine Intelligence. Vol 19, Num. 9, pp. 1043-1048.

Bibliografía

- 231 -

[Olivo-1994] Olivo J.C. (1994). “Automatic Threshold Selection Using The Wavelet Transform”. Graphical Models and Image Processing. Vol 56, Num. 3, pp. 205-218.

[Olson-1997] Olson, C.F., Huttenlocher, D.P. (1997). “Automatic target recognition by matching oriented edge pixels”. IEEE Transactions on Image Processing. Vol. 6, Num. 1, pp. 103-113.

[Olson-1998] Olson, C.F. (1998). “A probabilistic formulation for Hausdorff Matching”. Proc. of the IEEE Conference on Computer Vision and Pattern Recognition. Pp 150-156.

[Orguner-2007] Orguner, U., Gustafsson, F. (2007). “Statistical characteristics of Harris corner detector”. Proc. of IEEE Statistical Signal Processing Workshop. Madison (Wisconsin). Pp. 571-575.

[Orrite-2004] Orrite, C., Herrero, E. (2004). “Shape matching of partially occluded curves invariant under projective transform”. Computer Vision and Image Undestanding. Vol. 93, pp. 34-64.

[Ortiz-2002] Ortiz, F.G. (2002). “Procesamiento morfológico de imágenes en color. Aplicación a la reconstrucción geodésica“. Ph. D. Tesis, Universidad de Alicante.

[Ortiz-2004a] Ortíz F.G, Torres F. (2004). “Vectorial morphological reconstruction for brightness elimination in colour images”. Real Time Imaging. Vol. 10. Num. 6. pp. 379-387.

[Ortiz-2004b] Ortíz F.G, Torres F., Gil P. (2004). “A comparative study of highlights detection and elimination by color morphology and polar color models”. Ed. Springer-Verlag. Lecture Notes in Computer Science. Vol. 3523, pp. 295-302.

[Ortiz-2005a] Ortiz, F.G., Torres F., Gil, P. (2005). “A Comparative Study of Highlights Detection and Elimination by Color Morphology and Polar Color Models”. Lecture Notes Computer Science. Vol. 3523, pp. 295-302.

[Ortiz-2005b] Ortiz, F.G., Torres, F., Gil, P. (2005). “Elimination of Specular Reflection in Color Images by Vector Morphology and Polar Color Models”. GESTS International Transactions on Computer Science and Engineering. Vol. 11, Num. 1, pp. 95-106.

[Otsu-1979] Otsu, N. (1979). “A threshold selection method from grey-level histograms”. IEEE Transactions Systems Man and Cybernetics. Vol. 9. Num. 1, pp. 62-66.

[Pal-1994] Pal, N.R., Pal, S.K., (1994). “A Review on Image Segmentation Techniques”. Pattern Recognition. Vol. 26. Num. 9, pp. 1277-1294.

[Pal-1996] Pal, N.R. (1996). “On minimum cross-entropy thresholding”. Pattern Recognition. Vol. 29, Num. 4, pp. 575-580.

[Palus-1998] Palus, H. (1998). “Representations of colour images in different colour spaces”, In: Sangwine S., and Horne, R. (eds): The Colour Image Processing Handbook, Chapman and Hall, pp. 67-90.

[Park-2003] Park, B.G., Lee, K.M., Lee, S.U., Lee, L.H. (2003). “Recognition of partially occluded objects using probabilistic ARG (attributed relational graph)-based matching”. Computer Vision and Image Undestanding. Vol. 90. Num. 3, pp. 217-241.

[Park-2004] Park, C.B., Lee, K.W., Lee, S.W. (2004). “Automatic Microarray Image Segmentation Based on Watershed Transformation”. Proc of International Conference on Pattern Recognition (ICPR’04). Vol. 3, pp. 786-789.

[Parker-1996] Parker, J. (1996). Algorithms for Image Processing and Computer Vision. John Wiley & Sons.

Bibliografía

- 232 -

[Plataniotis-2000] Plataniotis, K.N., Venetsanopoulos, A.N. (2000). “Color Image Processing and Applications”. Ed. Springer-Verlag. Berlin.

[Pomares-2004] Pomares J. (2004). “Control visual 2D indirecto para el seguimiento intemporal de trayectorias y su aplicación a estrategias de control visual-fuerza en manipuladores”. Ph. D. Tesis. Universidad de Alicante.

[Pomares-2006a] Pomares J., García G.J., Payá L.. Torres F. (2006). “Adaptive visual servoing and force control fusion to track surfaces”. WSEAS Transactions on Systems. Vol. 5. Num. 1, pp. 25-32.

[Pomares-2006b] Pomares J., Gil P., Garcia G.J.., Torres F. (2006). “Visual- force control and structured light fusion to improve object discontinuities recognition”. Proc. of 11th IEEE International Conference on Emerging Technologies and Factory Automation(ETFA 2006). Praga (República Checa). Pp. 1044-1050.

[Powel-1998] Powel, M.W. (1998). “Comparing curved-surface range image segmenters”. Proc. of 6th International Conference on Computer Vision (ICCV’98). Pp. 286-291.

[Pun-1981] Pun, T. (1981). “Entropic Thresholding: A New Approach”. Computer Graphics and Image Processing, Vol. 16, Num. 3, pp. 210-239.

[Rajpal-1999] Rajpal, N., Chaudhury, S. (1999). “Recognition of partially occluded objects using neural network based indexing”. Pattern Recognition, Vol.32, Num. 10, pp. 1737-1749.

[Ramar-2000] Ramar, K., Arunigam, S., Sivanandam, S.N., Ganesan, L., Manimegalai, D. (2000) “Quantitative fuzzy measures for threshold selection”. Pattern Recognition Letters.Vol. 21, Num. 1, pp. 1-7.

[Ricard-2001] Ricard, V.S., Cuebas, S. (2001). Orden y Caos en sistemas complejos: fundamentos. Ed. Universidad Politécnica de Cataluña. ISBN: 8483014300.

[Ridler-1978] Ridler, T.W., Calvard S. (1978). “Picture Thresholding Using and Iterative Selection Method”. IEEE Transactions on System, Man and Cybernetics. Vol. 8, pp. 630-632.

[Rosenfeld-1983] Rosenfeld A., De la Torre, P. (1983). “Histogram concavity analysis as an aid in threshold selection”. IEEE Transactions on System, Man and Cybernetics. Vol. 13, pp. 231-235.

[Rosin-2003] Rosin, P.L., Ioannidis E. (2003). “Evaluation of global image thresholding for change detection”. Pattern Recognition Letters. Vol. 24, pp. 2435-2356.

[Rucklidge-1996] Rucklidge, W.J., (1996). “Efficient Visual Recognition Using the Hausdorff Distance”. Lecture Notes in Computer Vision, Springer-Verlag, Num. 1173,

[Rucklidge-1997] Rucklidge, W.J. (1997). “Efiicently locating objects using the Haussdorff distance”. International Journal of Computer Vision. Vol 24, Num. 3, pp. 251-270.

[Sahasrabudhe-1992] Sahasrabudhe S.C., Gupta, K.S.D. (1992). “A valley-seeking threshold selection technique”. Computer Vision and Image Understanding..Vol. 56, pp. 55-65.

[Sahoo-2004] Sahoo, P.K., Arora, G. (2004). “A thresholding method based on two-dimensional Renyi’s entropy”. Pattern Recognition. Vol. 37. Num. 6, pp. 1149-1161.

[Salamanca-2007] Salamanca S., Adán A., Cerrada C., Adán M., Merchán P., Pérez E. (2007). “Reconocimiento de objetos de forma libre a partir de los datos de rango de una vista parcial usando cono curvaturas ponderadas”. RIAI Revista Iberoamericana de Automática e Informática Industrial. Vol. 4, Num. 1, pp. 95-106.

Bibliografía

- 233 -

[Samson-1991] Samson, C., Le Borgne, M., Espiau, B. (1991). “Robot Control : the Task Function Approach”. Oxford Engineering Science Series. Clarendon Press, Oxford, UK.

[Sauvola-2000] Sauvola J., and Pietaksinen, M. (2000). “Adaptive document image binarization”. Pattern Recognition. Vol. 33, pp. 225-236.

[Sezan-1990] Sezan, M.I. (1990). “A peak detection algorithm and its application to histogram-based image data reduction”. Computer Vision, Graphics and Image Processing. Vol. 49, Num. 1, pp. 36-51.

[Schiele-1995] Schiele, B., Waibel, A. (1995). “Estimation of the Head Orientation based on a Face-Color-Intensifier”. Proc of International Symposium on Intelligent Robotics Systems. Pisa (Italia). Julio.

[Schmid-2000 ] Schmid, C., Mohr, R., Bauckhage, C. (2000). “Evaluation of interest point detectors”. International Journal of Computer Vision. Vol. 37. Num. 2, pp. 151-172.

[Sehgal-2003] Sehgal, A., Desai, U.B. (2003). “3D object recognition using Bayesian geometric hashing and pose clustering”. Pattern Recognition. Vol. 36. Num. 3, pp.765-780.

[Serra-2002] Serra J. (2002). “Espaces couleur et traitement d’images”. CMM-Ecole des Mines de Paris Internal Note N-34/02/MM, Octubre.

[Sezgin-2004] Sezgin, M., Sankur, B., (2004). “Image Thresholding Techniques Quantitative Performance Evaluation”. Journal of Electronic Imaging. Vol. 13. Num. 1, pp. 146-165.

[Shanbag-1994] Shanbag, A.G. (1994). “Utilization of information measure as a means of image thresholding”. Computer Vision, Graphics, and Image Processing. Vol. 56, Num. 5, pp. 414-419.

[Shen-1997] Shen D., Ip, H.H.S. (1997). “A Hopfield neural network for adaptive image segmentation: An active surface paradigm”. Pattern Recognition Letters. Vol. 18, Num. 1, pp. 37-48.

[Siggelkow-2002] Siggelkow S. (2002). “Feaure Histograms for Content-Based Image Retrieval”. Ph. D. Tesis. Universidad de Lüneburg (Alemania).

[Sim-1999] Sim, D.G., Kwon, O.K., Park, R.H. (1999). “Object matching algorithms using robust Haussdorf distance measures”. IEEE Transactions on Image Processing. Vol. 8. Num. 3, pp. 425-429.

[Smith-1978] Smith, A.R. (1978). “Color gamut transformation pairs”. Computer Graphics. Vol. 12, Num. 3, pp 12-19.

[Steger-2001] Steger, C. (2001). “Similarity Measures for Occlusion, Clutter, and Illumination Invariant Object Recognition”. Lecture Notes in Computer Science. Ed. Springer Verlag. Vol. 2191, pp 148-154.

[Subrahmonia-1996] Subrahmonia, J., Cooper, D.B., Keren, D. (1996). “Practical reliable Markov recognition of 2d and 3d objects using implicit polynomials and algebraic invariants”. IEEE Transactions on Pattern Analysis and Machine Intelligence. Vol. 18. Num. 5, pp 505-519.

[Swain-1991] Swain, M.J., Ballard, D.H. (1991). “Color indexing”. International Journal of Computer Vision. Vol. 7, Num. 1, pp. 11-32.

[Teague-1980] Teague M.R. (1980). “Image Análisis via the general theory of moments”. Journal of Optical Society of America. Vol. 70, Num. 8, pp. 920-930.

Bibliografía

- 234 -

[To-1999] To, F.W., Tsang, K.M. (1999). “Recognition of Partially Occluded Objects using and Orthogonal Complex AR Model Approach”. International Journal of Pattern Recognition and Artificial Intelligence. Vol. 13, Num. 1, pp. 85-107.

[Torralba-2004] Torralba A., Murphy K.P., Freeman W.T. (2004). “Sharing features: efficient boosting procedures for multiclass object detection”. Proc. of 18th IEEE Conference on Computer Vision and Pattern Recognition (CVPR’04). Washington (USA).Pp. 762-769.

[Torres-2002] Torres, Pomares J., Gil P., Puente S.T., Aracil R. (2002). “Robots y Sistemas Sensoriales". Ed. Prentice-Hall. ISBN 84-205-3574-5.

[Torres-2004] Torres F., Gil P., Puente S.T, Pomares J., Aracil R. (2004). “Automatic PC disassembly for component recovery”. Ed. Springer-Verlag London Ltd. International Journal of Advanced Manufacturing. Vol. 23. Num. 1, pp. 39-46.

[Tsai-1993] Tsai, F.C.D. (1993). “A probabilistic approach to geometric hashing using line features”. Ph.D. Tesis, Universidad de Nueva York. Septiembre .

[Tsai-1994] Tsai, F.C.D. (1994). “Geometric hashing with line features”. Pattern Recognition. Vol. 27, Num. 3, pp. 377-389.

[Tsai-1995] Tsai, D.M. (1995). “A fast thresholding selection procedure for multimodal and unimodal histograms”. Pattern Recognition Letters. Vol. 16, Num. 6, pp. 653-666.

[Tsang-2001] Tsang, K.M. (2001). “Recognition 2D standalone and occluded objects using wavelet transform”. International Journal of Pattern recognition and Artificial Intelligence. Vol. 15, Num. 4, pp. 691-705.

[Ulrich-2001] Ulrich, M., Steger, C. (2001). “Empirical Performance Evaluation of Object Recognition Methods”. Proc of IEEE on Empirical Evaluation Methods in Computer Vision, IEEE Computer Society Press, Los Alamitos, CA, pp. 62-76.

[Ulrich-2002] Ulrich, M., Steger, C. (2002). “Performance Evaluation of 2D Object Recognition Techniques”, Technical Report, PF-2002-01. Universidad Tecnológica de Munich.

[Vanhamel-2003] Vanhamel, I., Pratikakis, I., Sahli, H. (2003). “Multiscale gradient watersheds of color images”. IEEE Transactions on Image Processing. Vol. 12, Num. 6, pp. 617-626.

[Vicente-2002]. Vicente, A., Gil, P., Reinoso, O., Torres, F. (2002). “Objects Recognition by jeans of projective invariants considering corner-points”. Journal of WSCG. Vol. 10, pp. 129-135.

[Vicente-2006] Vicente Ripoll M.A. (2006). “Reconocimiento y Búsqueda Selectiva de Objetos en Entornos no Estructurados Mediante Apariencia Multicanal”. Ph. D. Tesis, Universidad Miguel Hernández, Julio.

[Villamizar-2006] Villamizar M.A, Sanfeliu A., Andrade J. (2006). “Computation of rotation local invariant features using the integral image for real time object detection”. Proc. of. 18th IAPR International Conference on Pattern Recognition (ICPR’06). Hong Kong (China).VOL. 4, pp. 81-85.

[Viola-2001] Viola P., Jones M. (2001) “Rapad object detection using a boosted cascade of simple features”. Proc of 15th IEEE Conference on Computer Vision and Pattern Recognition (CVPR’01). Hawai (USA). Pp. 511-518.

[Wells-1997] Wells, W.M. (1997). “Statistical approaches to feature-based object recognition”. International Journal of Computer Vision. Vol. 21, Num. 1-2, pp 63-98.

[Wezka-1978] Weszka, J.S. (1978). “A survey of thresholding selection techniques”. Computer Vision, Graphics Image Processing. Vol. 7, pp. 259-265.

Bibliografía

- 235 -

[Yañez-1999] Yañez Suarez, O. (1999). “Unsupervised Clustering in Hough Space for Identification of Partially Occluded Objects”. IEEE Transactions on Pattern Analysis and Machine Intelligence. Vol. 21, Num. 9, pp. 946-950.

[Yen-1995] Yen, J.C., Chang, F. J., Chang S. (1995). “A new criterion for automatic multilevel thresholding”. IEEE Transactions on Image Processing. Vol. 4, Num. 3, pp. 370-378.

[Yi-1997] Yi, X., Camps, O.I. (1997). “Robust occluding contour detection using the Haussdorf distance”. Proc. of IEEE Conference on Computer Vision and Pattern Recognition (CVPR97), pp 962-968.

[Yi-1998] Yi. J.H. (1998). “Model-based 3D object recognition using Bayesian indexing”. Computer Viion Image Understanding. Vol. 69. Num. 1, pp.87-105.

[Yi-2004] Yi Ma, Soatto S., Kosecka J., Shankar Sastry S. (2004). “An Invitation to 3-D Vision from Images to Geometric Models”. Ed Springer-Verlag.

[Ying-1999] Ying, Z., Castañon, D. (1999). “Statical model for occluded object recognition”. Proc. of IEEE International Conference on Information, Intelligence and Systems. pp. 324-327.

[Ying-2002] Ying, Z., Castañon, D. (2002). “Partially Occluded Object Recognition Using Statical Models”. International Journal of Computer Vision. Vol. 49, Num. 1, pp 57-78.

[Yingzi-2004] Yingzi D, Chein I.C., Thouin P.D. (2004). “Unsupervised approach to color video thresholding”. Optical Engineering. Vol. 43, Num. 2, pp. 282-289.

[Zhang-1996] Zhang, Y.J, (1996). “A Survey on Evaluation Methods for Image Segmentation”. Pattern Recognition. Vol. 29, Num. 8, pp. 1335-1346.

[Zhang-2003] Zhang, J., Zhang, X., Krim, H., Walter, G.G. (2003). “Object representation and recognition in shape spaces”. Pattern Recognition. Vol. 36, pp. 1143-1154.

Estrategias para identificar oclusiones y planificación ...

Documents

Transcript of Estrategias para identificar oclusiones y planificación ...