IV Congreso Microelectrónica Aplicada (uEA 2013) 164 Algoritmo...

Algoritmo heurístico para la localización de patentes

de automóviles a distancia constante

Martín Ferreyra Birón, Fernando Ignacio Szklanny

Universidad Nacional de La Matanza

Departamento de Ingeniería e Investigaciones Tecnológicas

Grupo de Investigación en Lógica Programable

San Justo, Argentina

Resumen — Existe más de una razón por la cual se desearía

realizar un registro sobre los automóviles que ingresan, salen o

circulan por una zona de interés (por ejemplo, la entrada o salida

de un estacionamiento, el paso por una zona determinada y

obligatoria, la salida de un peaje, etc.). La única marca

identificadora visible que es propia, individual e irrepetible en un

vehículo es su patente. Por lo tanto, para poder lograr un registro

eficiente de vehículos lo mejor es registrar su patente para

posteriores consultas. Si bien una solución es fotografiar el frente

o la parte trasera del auto y así obtenerla, esta solución es

ineficiente si se la quiere buscar en una base de datos a partir de

un proceso de OCR (Optical Character Recognition) o minimizar

la cantidad de almacenamiento. Es por esto que en el presente se

plantea la primera parte de una investigación sobre detección de

patentes, consistente en este caso en un algoritmo heurístico para

poder localizarla en una imagen, tomada desde una distancia

conocida, con el objetivo final de convertir la información

obtenida a un código binario, como puede ser el ASCII. Una de

las características fundamentales que distinguen al algoritmo

planteado es la posibilidad de implementarlo en hardware, a

través del uso de un dispositivo lógico programable tal como un

FPGA.

Palabras clave: patente, matriz de convolución, firma,

procesamiento digital de imágenes, seguridad, detección de bordes,

binarización de imagen.

I. INTRODUCCIÓN

Este trabajo forma parte de un proyecto de reconocimiento de imágenes para diversas aplicaciones que se lleva a cabo en el Departamento de Ingeniería e Investigaciones Tecnológicas de la Universidad Nacional de La Matanza, como parte del programa de investigación PROINCE implementado en esa Universidad.

Cuando se requiere realizar la vigilancia en una playa de estacionamiento o supervisar la entrada y salida de la misma, se necesita vigilar el ingreso de los vehículos a esta de alguna manera cómoda y eficiente. El control manual en estos casos puede resultar poco práctico y engorroso, y además se hace imposible realizar acciones asociadas de manera eficiente en forma remota y en gran escala (por ejemplo, contar cuántas veces un determinado vehículo entró a la playa de estacionamiento, cuánto tiempo permaneció en la misma y a qué hora se retiró). Para esta clase de situaciones existe más de

una solución, alguna más invasiva que otras; ejemplos que se pueden mencionar son el uso de la identificación por radiofrecuencia (RFID), el uso de tarjetas con banda magnética y la lectura automática de patentes.

De las maneras anteriormente mencionadas, la que probablemente resulte la más discreta pero la más compleja de implementar para cumplir el objetivo de control es la última, objeto del presente trabajo.

Para poder localizar una patente y reconocerla de manera correcta se deben cumplir tres etapas, que son las que se muestran en la Fig. 1.

La etapa de segmentación (o localización) implica ubicar la patente en una imagen obtenida por medios convencionales. Luego de esta etapa y una vez localizada la patente se debe pasar a la etapa de limpieza. En esta etapa se filtrará la imagen obtenida para tratar de obtener los caracteres que forman la patente con el menor ruido posible (dentro de la imagen), reduciendo así la probabilidad de error en el reconocimiento de la misma. Por último deberá lograrse el reconocimiento mismo de las letras de la patente, para lo cual se deberá utilizar alguno de los métodos de reconocimiento óptico (OCR) conocidos.

Si bien la investigación en el tema de la segmentación y reconocimiento de patentes muestra un alto grado de avance (como se puede observar en las comparaciones hechas en [1]), en este documento se mostrará el desarrollo de una solución a la primera y parte de la segunda etapa de manera heurística basándose en diversos trabajos de reconocimiento y segmentación de patentes enfocándose en que pueda ser implementado en una FPGA.

RECONOCIMIENTO

SEGMENTACION

LIMPIEZA

Fig. 1.- Etapas para el reconocimiento de una patente

IV Congreso Microelectrónica Aplicada (uEA 2013) 164

Universidad Tecnológica Nacional - Facultad Regional Bahía Blanca RED_UIE

II. DESARROLLO

A. La etapa de segmentación

Para poder localizar una patente se debe encontrar de alguna manera un rasgo distintivo y lo más inequívoco posible. En el caso de la patente se tienen dos rasgos identificatorios muy visibles, que son su color y su forma rectangular.

Respecto al color, se sabe que una patente está reglamentada y siempre tendrá una combinación de colores determinada, aunque el inconveniente que puede surgir radica en que el vehículo portador puede estar pintado en alguno o todos los colores que la conforman.

Además, los colores de las patentes varían con la fuente de iluminación utilizada, creando una imagen no con un color único y pleno, sino obteniéndose derivados en intensidad y brillo de dicho color e incluso cambiar el matiz. Se podría utilizar un umbral para determinar dónde se encuentra la patente, pero este esfuerzo seria infructuoso si el matiz varía demasiado o si la patente está compuesta por una combinación de blanco y negro. Es en este último caso donde la digitalización de la imagen y la fuente de iluminación en conjunto, puede no ofrecer un color negro puro sino alguna tonalidad en la escala de los grises. Por lo tanto encontrar una patente valiéndose de este método no es inequívoco.

En el caso de la forma rectangular de la patente se sabe, al igual que el color, que su forma y tamaño está reglamentado; aunque sería difícil poder localizar la misma, en primera instancia, si ésta estuviera inclinada, en perspectiva o que algún tipo de cubre patente dificultara morfológicamente su ubicación.

Si bien existen maneras conocidas para poder reconocer un rectángulo en una imagen tales como la “Transformada de Hough” [2], la forma rectangular de una patente no es un rasgo distintivo e inequívoco de la misma.

A partir de lo marcado anteriormente se debe buscar una característica distintiva que permita reconocer una patente.

Según este trabajo las principales características que pueden considerarse son:

La mayoría están compuestas por varios caracteres que corresponden a una misma tipografía y por lo tanto su trazo corresponde a un ancho fijo.

Los colores que las conforman son normalmente muy contrastantes para poder facilitar así su lectura. Por lo tanto, entre uno y otro color existe un cambio de luminosidad considerable.

Esto en conjunto ofrece como resultado un rasgo distintivo suficientemente inequívoco: en el lugar donde se encuentre los símbolos que forman la patente en una imagen, existirá una acumulación importante de cambios bruscos de luminosidad y ésta persistirá durante una cantidad de pixeles determinados.

Esta cantidad de pixeles corresponde al ancho de la tipografía de la patente a distancia constante.

Para poder localizar estos cambios se utilizó el concepto de firma (signature). Formalmente una firma se puede considerar como una representación unidimensional de una forma bidimensional, siendo así ésta mucho más simple de describir [3]. En este caso, sin embargo, se utilizará el concepto inverso de firma para saber dónde se encuentra la patente a partir de un patrón esperado, tal como se explica en [4].

Como primera medida, la imagen obtenida se convertirá a escala de grises o, en otras palabras, a un mapa de luminosidad utilizando la fórmula (1) de conversión, valiéndose únicamente de los valores rojo, verde y azul de cada pixel (en formato RGB) que conforma la imagen[5]:

Este paso implica poder trabajar con los cambios bruscos

de luminosidad, aunque no garantiza que un conjunto de pequeños puntos agrupados que posean a su alrededor un cambio de luminosidad considerable puedan ser comprendidos como una patente. Por lo tanto, una posible solución a este inconveniente será aplicar un desenfoque en la imagen para limpiar a ésta de posibles “ruidos” que conlleven a errores. Para poder resolver este punto se utilizan métodos de convolución. Se considera convolución al tratamiento de una matriz por medio de otra denominada kernel [2]. Para el caso de estudio se trató la matriz que conforman los pixeles de la imagen con una matriz kernel, lo que ofrece como resultado un desenfoque de la misma. Esta matriz corresponde a un filtro gaussiano que posee los valores que se muestran en (2) [6] (otros filtros gaussianos se citan en [7]).

El resultado de este filtro se puede observar en la Fig. 2.

Ya se ha mencionado con anterioridad que la manera en la cual se desea localizar la patente es mediante el concepto de firma, ya que los anchos de las tipografías se repiten en la mayoría de las letras de la misma.

Esto se puede observar graficando la luminosidad de cada una de las líneas horizontales, pixel a pixel, que conforman la imagen ya procesada. Además se advierte que existe un patrón que se repite a líneas horizontales consecutivas. Este patrón indicará con alta probabilidad que en ese lugar existe una patente, aunque esta característica tampoco es lo suficientemente distintiva.



Fig. 2.- Resultado de la aplicación de un filtro de desenfoque

Gaussiano

Esto se puede observar en la Fig. 3, en cuya primera gráfica se observa la imagen tratada, con la línea 585 de la misma marcada en celeste, en tanto que la segunda muestra la línea 585 aumentada y la tercera expone la firma de la línea 585 con los picos que posiblemente correspondan al ancho de la tipografía de la patente.

Teniendo en cuenta esta característica se procedió a reconocer línea por línea los segmentos de interés de las firmas. Se entendió como segmento de interés (tomando como ejemplo la patente argentina) a picos de luminosidad con un ancho establecido de antemano (que corresponde al ancho de su tipografía a la distancia desde la cual se toma la imagen en pixeles) que sobrepase o no (dependiendo de la patente) un umbral también establecido de antemano (este umbral hace referencia al nivel de luminosidad de la letra de las patentes) y que cada pico tenga por izquierda y por derecha una luminosidad menor al umbral (o mayor según sea el caso de la patente) al cual se hizo referencia.

Con esta información se confeccionó una matriz de las mismas dimensiones que la imagen original y que solo contiene los valores de luminosidad que cumplen con las características nombradas.

Fig. 3.- Imagen tratada, línea 585 ampliada y firma de la línea 585.

Para poder detectar los bordes de una imagen correctamente se decidió utilizar el método Laplaciano cuya matriz de convolucíon es la que se muestra en (3)

(3)

Este filtro se aplicó a la imagen gris original tratada anteriormente para que los bordes con mayor diferencia de luminosidad sean detectados con mayor precisión y los que no posean demasiada diferencia no sean tan intensos como se muestra en la Fig. 4. Cabe destacar que este filtro se puede implementar en una FPGA, como se muestra en [8].

A partir de las dos características observadas anteriormente el objetivo ahora, es generar una matriz de las mismas dimensiones que la imagen original y colocar en cada posición (que representa a un pixel) un valor (peso) que represente la posibilidad de que ese punto corresponda a una patente.

Tomando la matriz que contiene los valores de luminosidad y del lugar donde se localizaron los bordes que se averiguaron anteriormente, se procederá a sumar éstos dando como resultado una nueva matriz que contendrá los pesos definitivos de cada pixel. En esta investigación se manifestó que de acuerdo a como se sumen los pesos los resultados en la segmentación variarán. En el presente se mostrarán dos de las maneras de realizar este procedimiento.



Fig. 4.- Imagen original gris y desenfocada, bordes detectados y los

bordes de la patente detectadas. La segunda y tercera imagen fueron

procesadas para su mejor visualización

La primera manera de sumar los pesos es la siguiente: donde se encuentre solamente un borde se colocará un peso de 1 en la nueva matriz, y si se encuentra un borde y un pixel que se supone que corresponde al ancho de la tipografía, se colocará el peso 2; si se encuentra un pixel que se considera el ancho de la tipografía se colocará un peso de 1.

En una segunda manera, donde se encuentra solamente un borde se colocará un peso de 1 en la nueva matriz, y si se encuentra un borde y un pixel que se supone que corresponde al ancho de la tipografía se colocará el peso 2, en otros casos se colocará el peso 0.

En el primer caso, en el lugar en que se encuentre la patente existirá un peso considerable pero la posibilidad de error también lo será, ya que sitios que se consideran anchos de la tipografía de la patente, y que no lo son, podrán ser tomados como que sí lo son, lo que, en otras palabras, genera más “ruido”. En el segundo caso lo mencionado no sucede aunque el peso del ancho de la tipografía de la patente juega un papel menor, y como beneficio el “ruido” disminuye pero no en su totalidad.

Esto se puede observar en la Fig. 5, Fig. 6 , Fig. 7 y Fig. 8. El color negro marca un peso de 1 y el color blanco marca un peso de 2, la primera imagen corresponde al primer método y la segunda al segundo. En este trabajo se optó por utilizar el segundo método por entregar un rendimiento levemente mejor en fotos con flash.

Por último y sabiendo que se conoce la distancia desde la cámara que captura al vehículo, se puede aproximar cual será el ancho y el alto de la patente. Y habiendo adquirido ya la matriz de pesos, lo único que resta es buscar en qué parte de la matriz, con un área igual a la estimación de la patente, se obtiene mayor peso. En esta investigación se buscan los 3 primeros candidatos, es decir los tres primeros mayores pesos.

Esta manera de encontrar la patente es muy costosa si no se la analiza en forma correcta y profunda. Por lo tanto, antes de realizar la búsqueda se obtiene una última matriz con el peso de todas las áreas que se pueden encontrar en la imagen, sumando primero una única vez todos los pesos desde una esquina y luego moviendo pixel a pixel el área estimada de la patente sumando y restando los extremos, como se indica en [9].

Es importante aclarar que la concepción del algoritmo está orientada a detectar patentes en automóviles, y las pruebas que se hicieron fueron hechas en imágenes con patentes en automóviles , aunque por la naturaleza del algoritmo ,con algunos cambios podría detectar patentes en otros vehículos.

En el caso de la imagen utilizada para ilustrar este documento, el resultado (suponiendo que la patente mide en la imagen 150x50 pixeles) es el que se muestra en la Fig. 9.

B. La etapa de limpieza

Habiendo sido obtenida la patente, si se requiere obtener el significado de la misma a través de la utilización de un OCR, se deberá filtrar. Notoriamente, se deberán elegir los filtros de acuerdo a la necesidad del OCR, aunque será mejor tratada mientras más visible sean los símbolos de la misma y menor ruido tengan a su alrededor. Una de las maneras para poder entregar una imagen susceptible de ser reconocida correctamente (en una primera etapa) es binarizarla [10]. Además los filtros en una imagen bitonal a posteriori podrían ser morfológicos.

En el caso de la patente encontrada, al poder obtenerla en escala de grises, sin realizar ningún paso adicional de acuerdo al algoritmo, se podría transformar a blanco y negro, suponiendo un umbral en donde la luminosidad mayor a ese umbral se considerará blanco y siendo menor se considerará negro.



El inconveniente radica en que no todas las imágenes van a tener las mismas distribuciones de luminosidad, por lo tanto, colocar un valor fijo de umbral no es conveniente. Para solucionar este problema se utilizó el método probabilístico para hallar el valor umbral de digitalización de imágenes denominado Método Otsu[11]. Los resultados al aplicar este método fueron satisfactorios, sobre la base de la referencia mencionada. [11].

Otro filtro analizado consistió en tratar de eliminar la componente horizontal del marco blanco de la patente argentina. Lamentablemente, el mismo solo era efectivo en casos particulares, no obteniéndose buenos resultados si la patente estaba inclinada. Para lograrlo se requiere una transformación geométrica extra, [12] que permite rotar la imagen e incluso eliminar la perspectiva que tiene la misma si se conocen ciertos parámetros.

Incluso si se rota la imagen y se elimina la perspectiva, a partir de que se conoce la distancia a la patente, se puede aproximar el tamaño de la misma sin tener en cuenta el marco, sino solamente las dimensiones que conforman el rectángulo negro de la matrícula, lo que permite obtener una imagen mucho más limpia. Si se dispone de una imagen sin ningún desplazamiento en perspectiva se obtiene un resultado como el que muestra en la Fig. 10.

Por último, a partir de la imagen bitonal obtenida como resultado del método Otsu es posible extraer patrones cerrados como se explica en [13], pudiendo así extraerse cada una de las letras (y de los ruidos) que conforman la patente para su posterior análisis. Este paso aún se encuentra en etapa de investigación.

Fig. 5 Resultado de la suma obtenida con el primer método.

Fig. 6 Detalle de la suma obtenida con el primer método.

Fig. 7 Resultado de la suma obtenida con el segundo método.

Fig. 8 Detalle de la suma obtenida con el segundo método.

Fig. 9.- Primer, segundo y tercer candidato encontrado con el método

propuesto utilizando el segundo método de sumas.

Fig. 10.- Primer candidato encontrado teniendo en cuenta solamente

la parte interna de la patente argentina. Imagen binarizada por el

método Otsu



III. CONCLUSIÓN

El algoritmo o método presentado, es susceptible de ser desarrollado sobre un circuito integrado programable FPGA, y ese es el objetivo final del presente trabajo.

El algoritmo fue implementado en C# para su compresión y su estudio de acuerdo con lo observado. Se observó que a medida que el tamaño de la imagen aumenta el algoritmo se ralentiza. En opinión de los autores, esto se produce por dos factores: el primero es que efectivamente la cantidad de pixeles a analizar es importante y el segundo es consecuencia de la naturaleza secuencial de la programación y de la ejecución del programa. Se presupone que estos problemas de velocidad se solucionarán a partir de la implementación del algoritmo en un FPGA.

Además, cabe destacar que en este método no se buscó encontrar un compromiso entre uso de memoria y velocidad de procesamiento, sino un uso considerable de memoria para poder localizar la patente lo más rápido posible. Para el caso de la implementación en una FPGA esto será velocidad en desmedro de recursos.

El algoritmo en sí mismo, según los autores , presentó un buen desempeño a partir de un lote de imágenes de importantes diferencias de tamaños, distancias y luminosidad.

El lote de imágenes forma parte de una prueba preliminar para conocer cómo se comporta el algoritmo. El mismo estuvo compuesto por 48 imágenes con desconocimiento de la distancia entre la patente y la cámara de las cuales el 97,91% de las imágenes fueron obtenidas en el exterior con escenarios cambiantes. Cabe destacar que el 52,08% de esas imágenes fueron obtenidas con la cámara de un Smartphone Motorola Razr.

El criterio para determinar si una patente fue localizada correctamente se basó en que el contenido de la misma fuera correctamente segmentado. De este lote de pruebas el primer método obtuvo un 75% de éxito en tanto que el segundo método obtuvo un 72,91 % de éxito. El 61,53 % de los errores cometidos en el primero de los métodos fueron ocasionados por fallas en una débil detección de bordes mezclada con “ruido” del escenario de fondo. En el segundo método el 53,84% de las fallas fueron ocasionadas también por una débil detección de bordes. En ambos casos el porcentaje restante de errores se debe a diversos motivos entre los que se encuentran:

Una pobre segmentación de patentes, si se utiliza flash para obtener la imagen

Errores debido a ruido en la imagen de fondo.

IV. AGRADECIMIENTOS

Los autores desean agradecer muy especialmente al Ing. Nicolás Molina Vuistaz por su interés en este trabajo, por la ayuda prestada en todos los aspectos y el tiempo dedicado.

BIBLIOGRAFÍA Y REFERENCIAS

[1] Shan Du,Mahmoud Ibrahim , Mohamed Sheata , Wael Badawy , “Automatic License Plate Recognition (ALPR):A State of the art review”,IEEE transactions on circuits and systems for vídeo technology, vol. 23 NO. 2 Febrero 2013.

[2] Claudio Rosito Jung, Rodrigo Schramm “Rectangle Detection based on a Windowed Hough Transform”, Universidade do Vale do Rio dos Sinos,São Leopoldo,RS,Brasil.

[3] Rafael C. Gonzales,Richard E. Woods “Digital image processing”, Addison-Wesley Publishing Company, 1993 ISBN 0-201-50803-6

[4] Halina Kwásnicka & Bartosz Wawrzyniak “License plate localization and recognition in camera pictures”, Universidad Tecnologica de Wroclaw,Wroclaw.

[5] Tanner Helland “Seven grayscale conversion algorithms (with pseudocode an VB6 source code), (Disponible en http://www.tannerhelland.com/3643/grayscale-image-algorithm-vb6/ )

[6] Daniel Georgescu, “A Real-Time face recognition system using eigenfaces”,University of Economics Studies, Bucarest , Rumania.

[7] Jorge Valverde Rebaza- “Detección de bordes mediante el algoritmo de Canny”, Universidad Nacional de Trujillo

[8] Jorge Osio, Walter Aróztegui,Jose Rapallini et al , “Procesamiento de imágenes médicas sobre una FPGA para la detección de bordes”,Libro de memorias de UEA 2012

[9] Fidel Prieto Estrada, Pedro Real Jurado,“Reconocimiento de placas de matricula en perspectiva”, Universidad de Sevilla,Junio 2007

[10] Carlos Javier Sánchez Férnandez,Victor Sandonís Consuegra, “Reconocimiento optico de caracteres (OCR) ” Universidad Carlos III, Madrid.

Segmentación por Umbralizacion “Metodo Otsu” – Universidad Nacional de Quilmes, http://iaci.unq.edu.ar/materias/vision/apuntes.htm , Octubre 2005.

[11] Samuel Barreto Melo, “Transformaciones Geometricas sobre imágenes digitales, Facultad de Ciencias –Carrera de Matematicas” ,Universidad Distrital Francisco Jose de Caldas.

Emiliano Causa, 4/4/2008 , “ Algoritmo para el analisis de formas y reconocimiento de patrones bitonales, una implementacion en sitaxis de Procesing (java)”,

http://www.biopus.com.ar/txt/textos/Causa_Emiliano_Analisis_de_forma.pdf,)



http://www.tannerhelland.com/3643/grayscale-image-algorithm-vb6/

http://iaci.unq.edu.ar/materias/vision/apuntes.htm

http://www.biopus.com.ar/txt/textos/Causa_Emiliano_Analisis_de_forma.pdf

http://www.biopus.com.ar/txt/textos/Causa_Emiliano_Analisis_de_forma.pdf

IV Congreso Microelectrónica Aplicada (uEA 2013) 164 Algoritmo...

Documents

Transcript of IV Congreso Microelectrónica Aplicada (uEA 2013) 164 Algoritmo...