pág. 1
Sistema de Reconocimiento del entorno
para personas con discapacidad visual
Ruth Luzcena Montaña Rodríguez
Brayan Molina Pulido
Wilson Moya Suesca
Wendy Jeraldyn Puentes Ardila
Fundación Universitaria Unipanamericana – Compensar
Facultad de Ingeniería, Ingeniería de Telecomunicaciones
Bogotá, Colombia
2018
pág. 2
Sistema de Reconocimiento del entorno
para personas con discapacidad visual
Ruth Luzcena Montaña Rodríguez
Brayan Molina Pulido
Wilson Moya Suesca
Wendy Jeraldyn Puentes Ardila
Trabajo de grado presentado como requisito parcial para optar al título de:
Ingeniería de Redes y Telecomunicaciones
Director (a):
M.sc Ing. ANDRES ESTEBAN PUERTO LARA
Fundación Universitaria Unipanamericana – Compensar
Facultad de Ingeniería, Ingeniería de Telecomunicaciones
Bogotá, Colombia
2018
pág. 3
(Dedicatoria o lema)
“Camino lento, pero nunca camino hacia atrás”
Abraham Lincoln
pág. 4
Agradecimientos
En primer lugar, nos gustaría agradecer a nuestro tutor, Andrés Puerto Lara, por aceptar la
propuesta de este proyecto, así como el apoyo durante la realización del mismo.
Agradecer a todas las personas, compañeros y profesores de la universidad Unipanamericana
los cuales nos brindaron orientación acerca del proyecto y permitieron espacios para poder
laboral sobre este proyecto en horarios académicos.
Por último, agradecer a cada uno de los integrantes y cada una de sus familias por su apoyo
prestado día a día durante la duración del proyecto, sin el cual, habría sido imposible finalizarlo.
pág. 5
Resumen
A nivel internacional la discapacidad visual se describe como la dificultad que presentan
algunas personas para poder realizar sus actividades cotidianas debido a la disminución o
perdida de las funciones visuales que afecta varios aspectos en relación con la sociedad y el
cambio constante del mundo día a día. Las personas con discapacidad visual además de su
limitante carecen de apoyo para que puedan desempeñar su rol en la sociedad y como persona.
Los grandes avances de las tecnologías en diferentes campos y ciencias permiten y han
permitido que se desarrollen nuevas técnicas y herramientas que proporcionen ayudas sobre
las discapacidades y limitaciones de las personas logrando así una mejor calidad de vida. Bajo
este documento se emplea modelos de inteligencia artificial basados en modelo de
procesamiento en millones de imágenes que proporcionen una identificación del entorno de
ubicación para las personas con discapacidad visual o parcial.
Palabras Clave: Discapacidad Visual, Visión Artificial, Imágenes, Redes Neuronales,
Convolucion
pág. 6
Abstract
At the international level, visual disability is described as the difficulty that some people present
in order to be able to carry out daily activities due to the decrease or loss of the visual functions
that are related to society and the constant change of the world day by day. People with visual
disabilities in addition to their limit of support so that they can play their role in society and as
a person. The great advances of the technologies in different fields and sciences allow and have
allowed to develop new techniques and tools that provide on the disabilities and limitations of
the people thus achieving a better quality of life. Under this document artificial intelligence
models are used based on models of processing millions of images that provide an identification
in the environment of the location for people with visual or partial disability.
Keywords: Visual disability, Artificial visión, Deep Learning, Neuron Network, Convolution
pág. 7
Contenido PÁG.
LISTA DE FIGURAS ....................................................................................................................................................... 9
LISTA DE TABLAS ...................................................................................................................................................... 10
INTRODUCCIÓN ......................................................................................................................................................... 11
ANTECEDENTES ......................................................................................................................................................... 12
JUSTIFICACION ........................................................................................................................................................... 14
IDENTIFICACIÓN DEL PROBLEMA ...................................................................................................................... 15
OBJETIVO GENERAL ................................................................................................................................................. 16
OBJETIVOS ESPECÍFICOS ........................................................................................................................................ 16
ALCANCES Y LIMITACIONES .................................................................................................................................. 16
1. MARCO TEÓRICO ............................................................................................................................................. 18
1.1 VISION ARTIFICIAL ........................................................................................................................................................ 18 1.1.1 Caracteristicas ...................................................................................................................................................... 18
1.1.2 Aplicaciones .......................................................................................................................................................... 19
1.1.3 Reconocimiento ................................................................................................................................................... 19
1.2 Redes Neuronales .................................................................................................................................................... 20 1.2.1 Ventajas red neuronal ...................................................................................................................................... 21
1.2.2 Tipos de Redes Neuronales ............................................................................................................................ 23
1.3 Redes Neuronales Convolucionales ................................................................................................................. 24 1.3.1 Arquitecturas básicas CNN (Convolutional neural network) ......................................................... 24
1.4 Caffe ................................................................................................................................................................................ 24 1.4.1 Evolucion De Caffe .............................................................................................................................................. 25
1.5 ImageNet ...................................................................................................................................................................... 26 1.6 GoogleNet..................................................................................................................................................................... 26
1.6.1 Arquitectura GoogleNet ................................................................................................................................... 26
1.6.1.1 Capa Convolucional ...................................................................................................................................... 27
1.6.1.2 Capa de reducción o pooling .................................................................................................................... 27
1.6.1.3 Capa SoftMax ................................................................................................................................................... 27
1.6.1.4 Capas de otras clases ................................................................................................................................... 27
2. METODOLOGIA ................................................................................................................................................. 29
2.1 ADQUISICIÓN .................................................................................................................................................................. 29 2.1.1 Raspberry Pi Model B+ ..................................................................................................................................... 29
2.1.2 Raspberry Pi Cámara V2 .................................................................................................................................. 30
2.2 DISEÑO ............................................................................................................................................................................ 31 2.2.1 Ventana Deslizante ............................................................................................................................................. 31
2.2.2 Pirámides Gaussianas ....................................................................................................................................... 31
2.2.3 Diagrama de bloques del prototipo ............................................................................................................ 33
2.2.4 Funcionamiento Diagrama de bloques del prototipo ......................................................................... 34
pág. 8
2.3 IMPLEMENTACION ......................................................................................................................................................... 35 2.3.1 Inicio ......................................................................................................................................................................... 35
2.3.2 Proceso de Reconocimiento ........................................................................................................................... 35
2.3.3 Proceso de Reconocimiento con Ventana Deslizante ......................................................................... 36
2.3.4 Proceso de Reconocimiento Piramides Gaussianas ............................................................................ 38
2.4 PRESENTACION ............................................................................................................................................................... 39
3. RESULTADOS .................................................................................................................................................... 40
4. RECOMENDACIONES Y CONCLUSIONES ................................................................................................... 49
5. BIBLIOGRAFIA .................................................................................................................................................. 51
6. ANEXOS ............................................................................................................................................................... 54
pág. 9
Lista de Figuras PÁG.
Figura 1: Fases de Reconocimiento................................................................................................................. 19
Figura 2: Modelo Perceptrón ............................................................................................................................. 20
Figura 3: Red de múltiples capas de perceptrones ................................................................................... 21
Figura 4: Proceso de convolucion por capa ................................................................................................. 28
Figura 5: Raspberry Pi Model B+ ..................................................................................................................... 30
Figura 6: Raspberry Pi Cámara V2 .................................................................................................................. 30
Figura 7: Ventana Deslizante ............................................................................................................................. 31
Figura 8: Pirámide Gaussianas .......................................................................................................................... 32
Figura 9: Diagrama de bloques de funcionamiento de Prototipo ....................................................... 33
Figura 10: Captura de imagen ejemplo ......................................................................................................... 35
Figura 11: Proceso de Reconocimiento Oso de peluche........................................................................ 35
Figura 12: Proceso de Reconocimiento Balón de futbol ....................................................................... 36
Figura 13: Cocina Prueba .................................................................................................................................... 36
Figura 14: Cocina Prueba ventana deslizante tipo 1 ............................................................................... 37
Figura 15: Cocina Prueba ventana deslizante tipo 2 ............................................................................... 37
Figura 16: Sala prueba pirámides Gaussianas tipo 1............................................................................... 38
Figura 17: Sala prueba pirámides Gaussianas tipo 2............................................................................... 38
Figura 18: Sala prueba pirámides Gaussianas tipo 3............................................................................... 38
Figura 19: Sala prueba 1 ...................................................................................................................................... 40
Figura 20: Baño Prueba ...................................................................................................................................... 43
Figura 21: Living Room prueba 3 ................................................................................................................... 46
pág. 10
Lista de Tablas PÁG.
Tabla 1: Tabla de resultados prueba 1 .......................................................................................................... 41
Tabla 2: Tabla de resultados prueba 1 con porcentajes 3 ..................................................................... 42
Tabla 3: Tabla de resultados prueba 2 .......................................................................................................... 44
Tabla 4: Tabla de resultados prueba 1 con porcentajes 3 ..................................................................... 45
Tabla 5: Tabla de resultados prueba 3 .......................................................................................................... 46
Tabla 6: Tabla de resultados prueba 1 con porcentajes 3 ..................................................................... 47
pág. 11
Introducción
La discapacidad visual se define como perdida de la vista en los ojos y su campo visual, esto
quiere decir que hay una degradación o deterioro importante de la agudeza visual del ojo aun
así con la utilización de lentes como consecuencia presentan barreras para ejercer actividades
diarias.
En Colombia a través del Registro de Localización y Caracterización de personas con
discapacidad RLCPD se han identificado 1.379.001 personas, de las cuales el 3 % de los
colombianos están en el registro de discapacidad (Social, 2015), de la anterior cifra el 13,0 %
(179.471) tienen discapacidad visual, un hecho de magnitudes muy significativas si se tiene en
cuenta que para un individuo con esta condición es muy difícil vincularse a la gran mayoría de
los escenarios en que los sujetos se relacionan como: dificultad para caminar, correr y saltar,
entre otros, también presentan dificultades visuales cuyas causas pueden ser variadas, desde
una enfermedad crónica, infecciones, golpes, hasta problemas congénitos (Administrativo,
2006). Sin embargo, las tecnologías existentes que se dirigen a la asistencia de esta población,
resultan ser poco favorecedoras o alentadoras en comparación con las grandes necesidades que
enfrentan, sin incluir el alto costo que genera la utilización de las mismas.
Según el Registro de localización y caracterización del Ministerio de Salud y Protección Social
en 2018 muestra que el 87.8% de la población con discapacidad visual está clasificada en los
niveles I y II del SISBEN lo cual demuestra que esta población no dispone de los recursos
necesarios para adquisición de dichas herramientas (Brechas, n.d.) para progresar el curso de
la condición de estas personas, hay una deficiencia notable en el desarrollo de herramientas
tecnológicas que les permitan desenvolverse de un modo autosuficiente en sus tareas diarias.
La ley de 1680 del 20 de noviembre de 2013 describe los recursos para incluir a la población
con problemas visuales en el país, concentrándose en los contenidos digitales y las Tecnologías
de la Información y Comunicación.
En la actualidad se han realizado aportes tecnológicos para personas invidentes en la cual
Colombia se destaca en el desarrollo de estas soluciones el cual busca generar oportunidades
pág. 12
en el ámbito educativo, laboral, cultural y social. Gracias a estos aportes ha sido posible avanzar
su curso en la inclusión de esta población en el mundo de las TIC’s.
De acuerdo a la información y estadísticas presentadas anteriormente, el presente trabajo de
investigación tiene como finalidad la creación de un dispositivo de bajo costo de apoyo a las
personas con discapacidad visual total o parcial que aporte a la identificación de objetos del
entorno como por ejemplo el hogar. Para el desarrollo del plan de trabajo se determinaron e
investigaron las principales dificultades en términos de desplazamiento para las personas con
discapacidad visual. Para ello se debió definir previamente los conceptos teóricos a utilizar, la
tecnología más apropiada, el diseño incluyo un acercamiento de entorno, teniendo en cuenta lo
anterior se describirá en hardware los elementos utilizados.
En el ámbito teórico se realiza investigación del número de personas que presentan problemas
de visión, se realiza énfasis en la legislación colombiana y mundial con el fin de recalcar los
derechos y deberes de las personas con discapacidad visual, se desarrolla un estudio de campo
el cual permite identificar el nivel de aceptación de la tecnología hacia a esta población.
Antecedentes
Entre 400 y 450 millones de personas alrededor del mundo padecen de discapacidad visual
total, unos 135 millones tiene discapacidad visual parcial y 314 tienes problemas visuales en
donde las principales causas son errores de visión no corregidos, cataratas no operadas,
degeneración muscular por la edad, glaucoma, entre otros, donde las personas que están en
riesgo son personas mayores de 50 años y niños menores de 12 años. Así mismo la OPS
(Organización Panamericana de la Salud) indica sobre que sobre el año 2010 en América Latina
y el Caribe por cada millón de habitantes hay 20.000 casos de personas con discapacidad visual
y un aproximado de 5000 de personas invidentes y donde se evidencia las cegueras más
frecuentes o con más altos índices de probabilidad está en el género femenino con reporte casi
de un 60% de la población invidente. (Suarez Escudero, 2011).
pág. 13
La publicación de la CIDDM (Clasificación Internacional de las Deficiencias, Discapacidades y
Minusvalías) puesta en marcha en la década de los setenta, siendo aprobada por la OMS en el
año 1980 para ejercer su función. Sobre la resolución 29.35 en la 29ª Asamblea Mundial de la
Salud en donde se superaron problemas con otras entidades como CIE (Clasificación
Internacional de Enfermedades) donde se declaró y se definió los siguientes términos para
discapacidad, donde se indicada la deficiencia como perdida o anormalidad de funciones
psicológicas, fisiológicas o anatómicas; discapacidad haciendo referencia a restricción o
ausencia de la capacidad de realizar una actividad normal debido a una deficiencia (OMS, 2001),
y donde declara el termino minusvalía una consecuencia de una deficiencia o de una
discapacidad limitante en su desempeño (OMS, 2001); así donde esta publicación ha sido usada
por más de 20 años donde han realizado revisiones y calibraciones durante un periodo más de
una década. (Gutiérrez Santiago & Cancela Carral, 2006).
Las Grandes compañías y sus avances tecnológicos intervienen en el mercado de diferentes
maneras para generar apoyo a las personas con discapacidad visual en el desarrollo de sus
labores diarias, como, por ejemplo, Microsoft en asociación con Guide Dogs de Reino Unido
organización de entrenamiento de perros guías para personas con discapacidad visual (Wright,
2018), desarrollan kit de manos libres para mejorar la movilidad de este tipo de personas y con
la compañía Airlines Virgin Atlantic y una firma de tecnología llamada Bluebox Aviation
Systems (Clark, 2018) donde generaron un sistema de entretenimiento accesible para personas
con discapacidad visual para la línea de vuelos en el mes de diciembre del año 2017 donde
estuvo recopilado el sistema sobre dispositivos IPad donde las personas con Guide Dogs
accedían directamente a la línea por la recomendación indicada (Wright, 2018).
También Microsoft en conjunto con APPLE en donde apoyados con organizaciones industriales
intentan desarrollar el estándar de diseño de interfaz humana (HID) para pantallas braille y
lectura de esta misma (Sadato, Pascual-Leone, & Grafman, 1998), logrando interactuar por
medio del Plug and Play (Conecta y Reproduce) en este tipo de pantallas, haciendo que los
dispositivos físicos coincidan con los controladores de dispositivos de software que los
manipulan para establecer el canal de comunicación, también donde deben tener los recursos
pág. 14
del sistema que incluyen solicitudes de interrupción, acceso directo a la memoria, dispositivos
de entrada y salida y direcciones de memoria para tener una interfaz uniforme para almacenar
y recuperar recursos así no presenta conflictos ni daños, lo que la BIOS transfiere al sistema
operativo para el proceso de arranque, la configuración y el control de los dispositivos Plug and
Play (Cook , Drayer, & Imbert , 2004) de esta manera se han recibido múltiples propuestas de
inversión por parte de empresas y organizaciones que atienden a las personas con discapacidad
visual.
Justificación
Según los resultados que entrego el DANE el 2 de noviembre del Censo Nacional de Población y
Vivienda 2018, en Colombia somos 45.500.000 de personas de las cuales el 7,2% de la población
censada presenta alguna discapacidad, lo que se traduce cerca de 3.500.000 personas con algún
tipo de discapacidad. Lo cual indica que la cifra de discapacidad ha crecido en los últimos años,
pues en el censo del 2005, la población con discapacidad correspondía al 6,4%.
En la actualidad hay métodos tradicionales utilizados en la población con discapacidad visual,
se encuentran los rotuladores en gel que toma el relieve de un circuito el cual es percibido por
las personas que presentan la discapacidad visual, a partir de lo anterior se propuso el proyecto
de GuiaHme que es un dispositivo que retroalimenta al usuario y guiarlo a través de los distintos
circuitos que se imparten en la carrera de Ingeniería Informática. Este proyecto no fue
distribuido ya que se encontraron con impedimentos para las asociaciones especializadas en
incluir tecnologías o invertir en novedades de realidad virtual.
Debido a los impedimentos que se presentan al distribuir un dispositivo electrónico se opta por
el diseño de un prototipo de bajo costo que reconoce los objetos presentes en el entorno, toma
una imagen, realiza el proceso y luego es convertido en voz con el fin de orientar a las personas
con discapacidad visual o baja visión en cuanto a los posibles obstáculos con los que se puedan
encontrar o facilitar las tareas que desarrolla a diario esta población, ayuda en desplazamiento
para ofrecer alternativas que mejoren la calidad de vida y se note una diferencia con las
herramientas de uso frecuente las cuales dan aviso con anterioridad sobre los obstáculos que
estén presentes en el área en el que se moviliza.
pág. 15
Identificación del Problema
Las personas que padecen de discapacidad visual presentan problemas al momento de
desplazarse en el hogar o por diferentes partes de la ciudad ya que se encuentra con entornos
con dificultades y obstáculos como las escaleras, avisos colgantes, letreros de publicidad,
huecos que no tienen señalización lo cual expone a estas personas a una inseguridad física.
Junto a las dificultades antes nombradas también se encuentra una falta de solidaridad por
parte de la comunidad, quienes no colaboran ni se apropian de las necesidades que presentan
los invidentes al realizar desplazamientos.
Algunas personas invidentes se movilizan acompañadas de un perro guía el cual es el encargado
de avisarle a su propietario la presencia de obstáculos, pero actualmente se encuentran varias
denuncias de exclusión en el uso de perros guía porque se les niega el ingreso a
establecimientos comerciales, entidades financieras y sistemas de transporte público, lo
anterior debido a que hay un desconocimiento en cuanto a la gran importancia del uso de los
perros lazarillo para poder realizar de forma segura la movilidad.
También se encuentra que la mayoría de la población con discapacidad visual usa el bastón y
se encuentran con limitaciones en las vías que frecuentan por la presencia de postes de luz que
no están alineados, basureros instalados en medio de las aceras, las rampas que tienen estas
aceras para mejorar la movilidad de las personas que utilizan las sillas de ruedas ya que los
invidentes no pueden identificar cuando termina la acera y se pueden encontrar en una vía con
alto tránsito de automóviles, los baches en las calles, cabinas telefónicas que no tienen mucho
uso y las baldosas desniveladas hacen parte de los obstáculos con la que conviven cientos de
personas invidentes.
pág. 16
Objetivo General Diseñar un prototipo basado en visión artificial que proporcione la identificación del entorno
para guiar a personas con discapacidad visual parcial o total.
Objetivos Específicos
Identificar el tipo de cámara con los aspectos necesarios cuyas características de
fabricación permitan una adquisición detallada de las imágenes teniendo en cuenta su
costo beneficio para el entorno.
Escribir un algoritmo de programación utilizando librerías de procesamiento de
imágenes que permita caracterizar e identificar objetos dentro del entorno de las
personas con discapacidad visual.
Integrar el algoritmo de visión artificial en un sistema embebido con capacidades de
procesamiento de imágenes.
Evaluar la posibilidad de convertir el dispositivo en un wearable teniendo en cuenta el
hardware utilizado.
Alcances y Limitaciones
Alcances
El modelo propuesto será dirigido únicamente a personas con discapacidad visual
parcial o total.
El proyecto se focalizará en dar cumplimiento a algunas de sus necesidades básicas que
permitan la autonomía por medio de la tecnología y así mismo que corresponda con el
proyecto de vida de una persona con discapacidad visual.
pág. 17
Limitaciones
Presentación de contenido y producto desde la perspectiva de la accesibilidad.
Dificultad para entender el funcionamiento del dispositivo y la utilización del mismo.
La velocidad de procesamiento que se necesita es alta. Hay que tener en cuenta que es
necesario estar analizando todas las imágenes que capta un video en todo momento
para reconocerlas y actuar en consecuencia.
Capacidad limitada de Hardware: Problemas en el perfeccionamiento de las imágenes.
Sobrecarga visual y tiempo de respuesta de la aplicación, que para construir muchos
objetos requerirá del uso de más memoria.
pág. 18
1. Marco teórico
1.1 Visión Artificial.
Para definir la visión artificial inicialmente se describe la inteligencia artificial (IA) como el
sistema de cómo actúan y piensan los humanos, donde el objetivo es construir un sistema que
pase por humano, donde cuenta con capacidades necesarias como procesamiento del lenguaje
natural, representación del conocimiento, razonamiento y ciencias cognitivas. Además
también estos sistemas actúan y piensan racionalmente donde significa conseguir unos
objetivos dadas una creencias. (Bejar, 2013).
Según la Automated Imaging Association (Asociación de imágenes automatizadas) AIA, la
visión artificial abarca todas las aplicaciones industriales y no industriales en las que una
combinación de hardware y software brinda un guiado operativo a los dispositivos en la
ejecución de sus funciones de acuerdo con la captación y procesamiento de imágenes. Aunque
la visión artificial aplicada a la industria utiliza los mismos algoritmos y enfoques que las
aplicaciones académicas/educativas y gubernamentales/militares de visión artificial, las
limitaciones son diferentes. (Cognex, 2016).
La visión artificial la componen un conjunto de procesos destinados a realizar el análisis de
imágenes. Estos procesos son: captación de imágenes, memorización de la información,
procesado e interpretación de los resultado, entre otros.
1.1.1 Características
Automatizar tareas repetitivas de inspección realizadas por operadores.
Realizar controles de calidad de productos que no era posible verificar por métodos
tradicionales.
Realizar inspecciones de objetos sin contacto físico.
Realizar la inspección del 100% de la producción (calidad total) a gran velocidad. al
obtener un producto libre de defectos o elementos deteriorados, se está ofreciendo un
pág. 19
producto de una calidad mucho más elevada, lo que implica un producto que satisfacerá
a los clientes finales de forma asegurada. (Ruiz, 2018).
Reducir el tiempo de ciclo en procesos automáticas.
Realizar inspecciones en procesos donde existe diversidad de piezas con cambios
frecuentes de producción. (Altuna, 2012).
Cuentan con sensores digitales protegidos en el interior de cámaras industriales con
ópticas especializadas para adquirir imágenes, de forma que el hardware y software
informático pueden procesar, analizar y medir diversas características.
1.1.2 Aplicaciones
Identificación e inspección de objetos.
Determinación de la posición de los objetos en el espacio.
Establecimiento de relaciones espaciales entre varios objetos (guiado de robots).
Determinación de las coordenadas importantes de un objeto.
Realización de mediciones angulares.
Mediciones tridimensionales. (Altuna, 2012).
1.1.3 Reconocimiento
Es la tarea más utilizada en el campo de la visión artificial, se trata del procesado de imagen
cuyo objetivo es determinar si una imagen contiene un objeto, característica o actividad. Las
técnicas actuales permiten reconocer objetos, colores, caras humanas, caracteres escritos a
máquina o a mano, vehículos. Para poder reconocer los elementos anteriores, es necesario que
se den unas condiciones adecuadas de iluminación, entorno y posición relativa a la cámara. Este
tipo de reconocimiento, para los humanos es trivial pero se trata de una tarea compleja de
resolver por los sistemas de visión artificial si se quiere realizar de manera genérica y en
condiciones variables. ( Zimmermann Casado, 2014).
Figura 1. Fases de Reconocimiento
pág. 20
1.2 Redes Neuronales
Se puede definir de varias maneras, como una nueva forma de computación que es inspirada
en modelos biológicos formados por elementos que se comportan de manera análoga a las
neuronas y están organizadas de forma similar al cerebro o también como un modelo
matemático, compuesto por un gran número de elementos organizados jerárquicamente.
Las neuronas pueden vivir durante decenas de años, los canales iónicos y los receptores
cambian en la membrana en minutos, horas, días o semanas. Esto significa que las neuronas se
están reconstruyendo constantemente y los circuitos neuronales están en un estado constante
de flujo molecular. Además, se necesitan mecanismos homeostáticos (equilibrio interno de las
condiciones físicas y químicas en el ser humano) que ayudan a regular la excitabilidad
intrínseca y la fuerza sináptica para estabilizar el rendimiento del circuito (Marder & Goaillard,
2006).
Dentro de las redes neuronales existe una neurona artificial llamada perceptrón, desarrollados
en las décadas de 1950 y 1960 por el científico Frank Rosenblatt. Los perceptrones funcionan
tomando varias entradas binarias y produce una salida binaria única
Figura 2. Modelo Perceptrón
En el ejemplo mostrado, el perceptrón tiene tres entradas, x1, x2, x3.. En general podría tener
más o menos entradas. Rosenblatt propuso una regla simple para calcular la salida. Introdujo
pesos, w1, w2, ... , números reales que expresan la importancia de las entradas respectivas a la
salida. La salida de la neurona, 0 o 1, está determinada por si la suma ponderada ∑jwjXj es
menor o mayor que algún valor de umbral. Al igual que los pesos, el umbral es un número real
que es un parámetro de la neurona. (Nielsen, 2015).
pág. 21
Como lo menciona Nielsen el perceptrón no es un modelo o sistema completo para la toma de
decisiones humanas, pero lleva al aprendizaje del modelo en cómo puede medir y analizar
diferentes tipos de evidencia para la toma de decisiones y que con entrenamiento del modelo
puede ser bastante útil. Según la figura # se indica la primera capa de perceptrones (de
izquierda a derecha) tomando una validación inicial de la evidencia de las entradas. La capa del
medio toma decisiones calculando y analizando los resultados de salida de primer nivel donde
la decisión tomada o escogida es de un nivel mas complejo y así sucesivamente en las capas
posteriores hasta llegar a la salida.
Figura 3. Red de múltiples capas de perceptrones
1.2.1 Ventajas red neuronal
Debido a su constitución y a sus fundamentos, las redes neuronales artificiales presentan un
gran número de características semejantes a las del cerebro. Esto hace que ofrezcan numerosas
ventajas y que este tipo de tecnología se esté aplicando en múltiples áreas:
Aprendizaje Adaptativo.
Tienen la capacidad de aprender a realizar tareas basadas en un entrenamiento o en
una experiencia inicial. Las redes neuronales son sistemas dinámicos auto adaptativos,
son adaptables debido a la capacidad de autoajuste de los elementos procesales
(neuronas) que componen el sistema y dinámicos, pues son capaces de estar
constantemente cambiando para adaptarse a las nuevas condiciones.
pág. 22
Auto-organización.
Las redes neuronales emplean su capacidad de aprendizaje adaptativo para auto
organizar la información que reciben durante el aprendizaje y/o la operación. Mientras
que el aprendizaje es la modificación de cada elemento procesal, la auto organización
consiste en la modificación de la red neuronal completa para llevar a cabo un objetivo
específico. Esta auto organización provoca la generalización: facultad de las redes
neuronales de responder apropiadamente cuando se les presentan datos o situaciones
a las que no había sido expuesta anteriormente. El sistema puede generalizar la entrada
para obtener una respuesta, esta característica es muy importante cuando se tiene que
solucionar problemas en los cuales la información de entrada no es muy clara; además
permite que el sistema dé una solución, incluso cuando la información de entrada está
especificada de forma incompleta. (Matich, 2001).
Tolerancia a fallos.
Las redes neuronales fueron los primeros métodos computacionales con la capacidad
inherente de tolerancia a fallos. Comparados con los sistemas computacionales
tradicionales, los cuales pierden su funcionalidad cuando sufren un pequeño error de
memoria, en las redes neuronales, si se produce un fallo en un número no muy grande
de neuronas y aunque el comportamiento del sistema se ve influenciado, no sufre una
caída repentina.
Operación en tiempo real.
Una de las mayores prioridades, casi en la totalidad de las áreas de aplicación, es la
necesidad de realizar procesos con datos de forma muy rápida. Las redes neuronales se
adaptan bien a esto debido a su implementación paralela. Para que la mayoría de las
redes puedan operar en un entorno de tiempo real, la necesidad de cambio en los pesos
de las conexiones o entrenamiento es mínimo.
pág. 23
Fácil inserción dentro de la tecnología existente.
Una red individual puede ser entrenada para desarrollar una única y bien definida tarea
(tareas complejas, que hagan múltiples selecciones de patrones, requerirán sistemas de
redes interconectadas). Con las herramientas computacionales existentes (no del tipo
PC), una red puede ser rápidamente entrenada, comprobada, verificada y trasladada a
una implementación hardware de bajo coste. Por lo tanto, no se presentan dificultades
para la inserción de redes neuronales en aplicaciones específicas, por ejemplo, de
control, dentro de los sistemas existentes. De esta manera, las redes neuronales se
pueden utilizar para mejorar sistemas en forma incremental y cada paso puede ser
evaluado antes de acometer un desarrollo más amplio. (Matich, 2001).
1.2.2 Tipos de Redes Neuronales
Redes de capa simple: La red más simple es la formada por un conjunto de perceptrones
(neurona artificial o unidad básica de inferencia en forma de discriminador lineal) a los
que entra un patrón de entradas y proporcionan la salida correspondiente.
Redes multicapa: Las redes multicapa se forman por un conjunto de redes de capa
simple en cascada unidas por pesos, donde la salida de una capa es la entrada de la
siguiente capa. Generalmente son capaces de aprender funciones que una red de capa
simple no puede aprender, por lo que ofrecen mejores capacidades computacionales.
Redes recurrentes: Las redes consideradas hasta ahora no tienen conexiones entre
pesos de la salida de una capa a la entrada de la misma capa o anteriores. Las redes que
poseen esta característica son conocidas como redes recurrentes. Las redes recurrentes
no tienen memoria, es decir, la salida solamente está determinada por las entradas y los
pesos. Las capas recurrentes redireccionan previas salidas a entradas. (Cardenes
Almeida, 2008).
pág. 24
1.3 Redes Neuronales Convolucionales
Son redes que se usan para procesar imágenes, donde se emplea relaciones entrada-salida,
donde la entrada es una imagen y están basadas en operaciones de convolucion (operación
matemática de la integral del producto de 2 señales), donde efectúa tareas de
detección/categorización de objetos, clasificación de escenas y clasificación de imágenes
(Loncomilla, 2016).
1.3.1 Arquitecturas básicas CNN (Convolutional neural
network)
Está compuesta por capas que filtran las entradas para obtener información útil. Estas capas
convolucionales tienen parámetros (kernel) que se aprenden para que estos filtros se ajusten
automáticamente para extraer la información más útil para la tarea en cuestión sin la selección
de características.
1.4 Caffe
Es un marco de aprendizaje profundo creado teniendo en cuenta la expresión, la velocidad y la
modularidad. Es desarrollado por el Laboratorio de Investigación de Inteligencia Artificial de
Berkeley (BAIR, por sus siglas en ingles) y por colaboradores de la comunidad. Yangqing Jia
creó el proyecto durante su doctorado en la Universidad de California Berkeley. Este modelo
está escrito en C++ y CUDA (Interfaz de Programación de Aplicaciones creado por Nvidia) y
puede ser usado mediante Python y C++.
La velocidad hace que Caffe sea perfecto para experimentos de investigación y despliegue en la
industria. Caffe puede procesar más de 60 millones de imágenes por día con una sola GPU
NVIDIA K40. Eso es 1 ms / imagen para deducir y 4 ms / imagen para aprendizaje y las
versiones más recientes de la biblioteca y el hardware son aún más rápidos (Jia & Shelhamer,
2014).
pág. 25
1.4.1 Evolución de Caffe
Primavera y verano de 2013: El grupo del profesor Trevor Darrell en UC Berkeley
publica su documento, código y modelos de DeCAF, demostrando que las funciones de
aprendizaje profundo ofrecen mejoras generales para el reconocimiento visual y se
pueden ajustar para varias tareas específicas. Por primera vez, la comunidad de
desarrollo tiene un modelo público de aprendizaje profundo que puede realizar usted
mismo.
Diciembre de 2013: Caffe v0, un marco basado en C ++ / CUDA para el aprendizaje
profundo con un conjunto de herramientas completo para definir, capacitar y desplegar
redes profundas, se lanza en NIPS. Caffe tiene un propósito más general que DeCAF, por
no mencionar más rápido.
Primavera de 2014: Caffe incorpora nuevos solucionadores, gráficos de red generales
(entrada múltiple, ruta de acceso y salida) y compartir el peso para abarcar una amplia
gama de modelos potenciales.
Junio de 2014: CVPR 2014 trae una "ola" de gradientes. La R-CNN de Ross Girshick
(entonces UC Berkeley) logra una precisión de vanguardia para la detección de objetos,
proporcionando una prueba de que el ajuste fino puede mejorar las tareas visuales más
allá de la clasificación de objetos. El esfuerzo para abordar todas las tareas de
reconocimiento a través del aprendizaje profundo está ahora en marcha.
Septiembre de 2014: se crea el Caffe Model Zoo para permitir el intercambio de modelos
entre grupos de investigación y la industria. Se lleva a cabo ILSVRC 14, con ganadores
incluyendo VGG (desarrollado en Caffe) y GoogLeNet (reproducido en Caffe poco
después). El primer tutorial público de Caffe también se lleva a cabo, en la Conferencia
Europea sobre Visión por Computador (ECCV). Finalmente, una versión de
actualización coordinada de Caffe con NVIDIA permite la aceleración en las GPU a través
de cuDNN v1. (Dipert & Bier, 2015).
pág. 26
1.5 ImageNet
Es un conjunto de datos de más de 15 millones de imágenes de alta resolución etiquetadas que
pertenecen aproximadamente a 22,000 categorías. Las imágenes se recolectaron de la web y
fueron etiquetadas por personas utilizando la herramienta de Amazon Mechanical Turk
(MTurk). (Krizhevsky, Sutskever, & Hinton, 2014).
ILSVRC (Large Scale Visual Recognition Challenge) desafío de reconocimiento visual a gran
escala de ImageNet, evalúa los algoritmos para la detección de objetos y la clasificación de
imágenes a gran escala. Una motivación de alto nivel es permitir a los investigadores comparar
el progreso en la detección en una variedad más amplia de objetos, aprovechando el costoso
esfuerzo de etiquetado. Otra motivación es medir el progreso de la visión por computadora para
la indexación de imágenes a gran escala para la recuperación y anotación. (Russakovsky, y
otros, 2015). ILSVRC emplea un subconjunto de ImageNet con aproximadamente 1000
imágenes en cada 1000 categorías, donde en total hay 1.2 millones de imágenes de
entrenamiento, 50.000 imágenes de validación y 150.000 imágenes de prueba.
1.6 GoogleNet
GoogleNet creado por Yan Lecun, es una red neuronal convolucional de 22 capas donde tiene
módulos de inicio que realizan diferentes convoluciones en varios tamaños y recogen
información para ser entregada a la siguiente capa. Esta red esta entrenada con la gran base de
datos de millones de imágenes de ImageNet mostrada al mundo en el ILSVRC del año 2014, en
donde logro una tasa de error top-5 de 6.67%, ya que este margen de error es muy similar al
error humano según los aspectos enfocados en el objetivo principal del ILSVRC (clasificación y
detección de objetos y escenas).
1.6.1 Arquitectura red GoogleNet
Arquitectura de red GoogleNet utilizando Analizador CNN Netscope (Una herramienta web
para visualizar y analizar arquitecturas de redes neuronales convolucionales). Ver Anexo 1.
pág. 27
1.6.1.1 Capa Convolucional
Lo que distingue a las redes neuronales convolucionales de cualquier otra red neuronal es
utilizan un operación llamada convolución en alguna de sus capas; en lugar de utilizar la
multiplicación de matrices que se aplica generalmente. La operación de convolución recibe
como entrada o input la imagen y luego aplica sobre ella un filtro o kernel que devuelve
un mapa de las características de la imagen original, de esta forma se logra reducir el tamaño
de los parámetros. (López, 2014).
1.6.1.2 Capa de reducción o pooling
La capa de reducción o pooling se coloca generalmente después de la capa convolucional. Su
utilidad principal radica en la reducción de las dimensiones espaciales (ancho x alto) del
volumen de entrada para la siguiente capa convolucional. No afecta a la dimensión de
profundidad del volumen. La operación realizada por esta capa también se llama reducción de
muestreo, ya que la reducción de tamaño conduce también a la pérdida de información. (López
Briega, 2016).
1.6.1.3 Capa SoftMax
SoftMax a menudo se encuentra en la capa final que actúa básicamente como un normalizador
y produce un vector discreto de distribución de probabilidad, ya que la salida de la CNN que se
quiere una probabilidad de que una imagen se corresponda con una clase en particular. La
salida de las capas y de la red neuronal se procesa utilizando una función de activación, que es
un nodo que se agrega a las capas de ocultación y a la capa de salida. (Bendemra, 2018).
1.6.1.4 Capas de otras clases
Al final de las capas convolucional y de pooling, las redes utilizan generalmente capas
completamente conectados en la que cada pixel se considera como una neurona separada al
igual que en una red neuronal regular. Esta última capa clasificadora tendrá tantas neuronas
como el número de clases que se debe predecir.
La idea de la capa de inicio es cubrir un área más grande, pero también mantener una buena
resolución para una pequeña información sobre las imágenes. Por lo tanto, la idea es convertir
pág. 28
en paralelo diferentes tamaños, desde los detalles más precisos (1x1) a uno más grande (5x5).
La forma más sencilla de mejorar el rendimiento en el aprendizaje profundo es usar más capas
y más datos, GoogleNet utiliza 9 módulos de inicio.
Figura 4. Proceso de convolucion por capa
pág. 29
2. Metodología
La metodología usada para el proyecto se llevó a cabo en las siguientes fases
2.1 Adquisición
Se determinó el tipo de hardware a utilizar para la obtención y el procesamiento de imágenes,
teniendo en cuenta sus características técnicas, capacidades de procesamiento, entre otros.
2.1.1 Raspberry Pi Model B+
El Raspberry Pi 3 Modelo B + es el último producto de la gama Raspberry Pi 3, con un
procesador de cuatro núcleos de 64 bits que funciona a 1.4 GHz, doble banda de 2.4 GHz y LAN
inalámbrica de 5 GHz, Bluetooth 4.2 / BLE, Ethernet más rápida y capacidad PoE a través de un
PoE HAT.
pág. 30
Figura 5. Raspberry Pi Model B+
2.1.2 Raspberry Pi Cámara V2
Raspberry Pi Cámara V2 tiene un sensor Sony IMX219 de 8 megapíxeles. Admite los modos de
video 1080p30, 720p60 y VGA90, así como también captura. Se conecta mediante un cable
plano de 15 cm al puerto CSI en la Raspberry Pi.
Figura 6. Raspberry Pi Cámara V2
pág. 31
2.2 Diseño
Es una librería software, fuente abierta de visión artificial y aprendizaje automático, provee una
infraestructura para aplicaciones de visión artificial. La librería tiene más de 2500 algoritmos,
que incluye algoritmos de machine learning (máquinas de aprendizaje) y de visión artificial
para usar.
Estos algoritmos permiten identificar objetos, rostros, clasificar acciones humanas en vídeo,
hacer tracking de movimientos de objetos, extraer modelos 3D, encontrar imágenes similares,
eliminar ojos rojos, seguir el movimiento de los ojos, reconocer escenarios, entre otros.
2.2.1 Ventana Deslizante
Una ventana deslizante permite a la red neuronal operar sobre múltiples puntos de datos, por
lo que es un mejor predictor de futuras series cronológicas y en su comportamiento.
Figura 7. Ventana Deslizante
2.2.2 Pirámides Gaussianas
Una pirámide de imágenes es una colección de imágenes, todo surge de una sola imagen
original, que se muestrea hasta que se alcanza un cierto punto de parada deseado.
pág. 32
Esta pirámide es un conjunto de capas en la que la más alta es la capa, más pequeño es el
tamaño.
Figura 8. Pirámide Gaussianas
Cada capa se numera de abajo hacia arriba, por lo que la capa (I + 1) (indicada como G_ {i + 1}
es más pequeña que la capa i (G_ {1}. (Atriano Perez, 2012).
pág. 33
2.2.3 Diagrama de flujograma del algoritmo
Figura 9. Diagrama de bloques de funcionamiento de Prototipo
pág. 34
2.2.4 Funcionamiento Diagrama de flujograma del algoritmo
Inicio
Este bloque se encarga de inicializar las variables globales y funciones necesarias para
ejecutar
Captura de la imagen.
Se realiza la toma de la imagen proporcionando la posición en la que se encuentra.
Algoritmo de reconocimiento por medio de ventanas deslizantes.
Por medio del algoritmo se extrae regiones de la imagen, en este caso se consideran
ventanas deslizantes en el cual escanea detalladamente la imagen y valida que elemento
es teniendo en cuenta tamaño, iluminación, etc.
Finalización del recorrido de la imagen
Continuando con el algoritmo de reconocimiento avanza por las distintas ventanas
hasta finalizar y clasifica el elemento depende del objeto de interés.
Reconocimiento de objeto en el entorno.
Al realizar el reconocimiento del objeto guarda esta información en un vector el cual se
encarga de validar detección de colores, segmentación del objeto y posición y forma del
mismo.
Probabilidad de reconocimiento.
El vector de características compara la información que tiene del objeto y si encuentra
uno con un porcentaje elevado de semejanza determina que objeto es.
Sintetizador de voz
La lista de características que incluye los resultados del análisis de las imágenes,
es procesado por el sintetizador que emite el audio de lo encontrado en el vector
para ser escuchado por el usuario.
Fin
Fin del ciclo del algoritmo.
pág. 35
2.3 Implementación
2.3.1 Inicio
Una vez instalado el software OpenCV en el sistema operativo de la Raspberry Pi (RASPBIAN
basado en Debian GNU/Linux) con cada una de sus librerías necesarias, se toma la fotografía al
entorno o el escenario encontrado con la Raspberry Pi Cámara V2.
Figura 10. Captura de imagen ejemplo.
2.3.2 Proceso de Reconocimiento
Se evidencia el proceso de reconocimiento del modelo ya entrenado donde analiza e identifica
los principales rasgos de la imagen tomada, realiza una predicción con el modelo matemático
de GoogleNet, basado en características adquiridas por la red neuronal.
Figura 11. Proceso de Reconocimiento Oso de peluche
pág. 36
Figura 12. Proceso de Reconocimiento Balón de futbol
2.3.3 Proceso de Reconocimiento con Ventana Deslizante
Para efectos del prototipo mencionado objetivo base del proyecto la ventana deslizante
trae información más precisa y detallada de la imagen principal como lo muestra el
siguiente ejemplo con el modelo y proceso de reconocimiento funcional
La imagen ejemplo de la prueba es la siguiente figura:
Figura 13. Cocina Prueba
pág. 37
Después de tomar la captura la imagen es procesada por las ventanas de varios tamaños
predefinidas en el algoritmo desarrollado indicando su porcentaje de semejanza
encontrado, como se evidencia de la siguiente manera
Figura 14. Cocina Prueba ventana deslizante tipo 1
Figura 15. Cocina Prueba ventana deslizante tipo 2
pág. 38
2.3.4 Proceso de Reconocimiento con pirámides Gaussianas
Después de tomar la captura la imagen es procesada por las ventanas de varios tamaños
predefinidas en el algoritmo desarrollado utilizando el principio de pirámides Gaussianas
Figura 16. Sala prueba pirámides Gaussianas tipo 1
Figura 17. Sala prueba pirámides Gaussianas tipo 2
Figura 18. Sala prueba pirámides Gaussianas tipo 3
pág. 39
2.4 Presentación (sintetizador de voz)
Para la parte de presentación que en otras palabras en el sintetizador de voz de los objetos
reconocidos en el entorno y procesados por el algoritmo se genera una lista de estos objetos
que el algoritmo va alimentando hacia el final de este mismo para después ser procesado por
los comandos y las librerías de audio:
Un ejemplo de las listas es esta:
['screen', 'loudspeaker', 'binder', 'nematode', 'home theater', 'spotlight', 'switch']
pág. 40
3. Resultados
3.1 Prueba 1.
Se evidencia la figura 19 que es la foto original, y se exponen los resultados encontrados en la
siguiente tabla.
Figura 19. Sala prueba 1.
RESULTADOS CANTIDAD
ENCONTRADA TRADUCCION
Band Aid 1 TIRITA
bannister 3 BARANDILLA
binder 5 CARPETA
bulletproof vest 1 CHALECO ANTIBALAS
car mirror 2 ESPEJO DE COCHE
cleaver 2 CUCHILLA
cowboy boot 1 BOTA DE VAQUERO
crossword puzzle 2 CRUCIGRAMA
dalmatian 1 DALMATA
digital clock 1 RELOJ DIGITAL
dishwasher 2 LAVAVAJILLAS
dugong 3 DUGONGO
envelope 7 SOBRE
fire screen 2 PANTALLA DE FUEGO
flat-coated retriever 1 perro perdiguero de capa plana
golf ball 1 BOLA GOLF
pág. 41
grey whale 1 BALLENA GRIS
hourglass 3 RELOJ DE ARENA
jersey 1 SUETER
killer whale 1 BALLENA ASESINA
laptop 9 PORTATIL
Madagascar cat 1 GATO MADAGASCAR
mailbag 3 SACO DE CORREOS
microwave 9 MICROONDAS
monitor 1 PANTALLA
muzzle 1 BOZAL
nematode 25 NEMATODO
notebook 5 CUADERNO
oxygen mask 5 MASCARA OXIGENO
photocopier 1 FOTOCOPIADORA
pick 2 RECOGER
revolver 1 REVOLVER
screen 61 pantalla
sewing machine 1 MAQUINA DE COSER
studio couch 3 SOFA DE ESTUDIO
switch 2 INTERRUPTOR
television 1 television
upright 3 VERTICAL
velvet 8 TERCIOPELO
wallet 2 bitellera
web site 1 PAGINA WEB
window shade 1 PERSIANA
Total general 187
Tabla 1.Tabla de resultados prueba 1.
De la tabla 1, se evidencia un total de 187 encontrados donde en un objeto se tiene
varias cantidades encontradas según la librería de reconocimiento, se toman los
siguientes cálculos sobre los totales de resultados correctos e incorrectos:
V1 = Objetos Reconocidos Correctamente
𝑽𝟏 =𝑅𝑒𝑠𝑢𝑙𝑡𝑎𝑑𝑜𝑠 𝐶𝑜𝑟𝑟𝑒𝑐𝑡𝑜𝑠
𝑇𝑜𝑡𝑎𝑙=
109
187= 0,582887 − − − − > 58.2 %
pág. 42
V2 = Objetos Reconocidos Incorrectamente
𝑽𝟐 =𝑅𝑒𝑠𝑢𝑙𝑡𝑎𝑑𝑜𝑠 𝐼𝑛𝑐𝑜𝑟𝑟𝑒𝑐𝑡𝑜𝑠
𝑇𝑜𝑡𝑎𝑙=
78
187= 0,417112 − − − > 41.7 %
De la tabla 1, se evidencia un total de 187 encontrados donde en un objeto se tiene varias
cantidades encontradas según la librería de reconocimiento, ahora la siguiente tabla expone el
total de resultados con su porcentaje más alto de semejanza del reconocimiento dados por el
algoritmo.
OBJETO SEMEJANZA
Band Aid 55.88%
binder 60.12%
digital clock 73.56%
envelope 59.21%
jersey 51.87%
laptop 53.35%
mailbag 51.59%
monitor 68.34%
notebook 69.69%
screen 76.21%
studio couch 64.54%
switch 59.71%
television 51.23%
velvet 62.75%
velvet 60.30%
window shade 78.27%
Tabla 2. Tabla de resultados prueba 1 con
porcentajes
Para el algoritmo se realizó la medida con una
probabilidad de semejanza mayor a 50 %, en
este escenario (prueba 1) se encontraron 16
resultados mayor a esta medida de los cuales 13
resultados son los más aproximados.
Se realizó la siguiente regla de 3 para el
porcentaje de los resultados denominados con
V3 = (Resultados mas aproximados*100) /
Total Resultados
V3 = (13*100) / 16
pág. 43
3.2 Prueba 2.
Se evidencia la figura 20 que es la foto original, y se exponen los resultados encontrados en la
siguiente tabla.
Figura 20. Baño prueba
RESULTADOS CANTIDAD
ENCONTRADA TRADUCCIÓN
beaker 5 cubeta
binder 4 carpeta
can opener 1 abrelatas
cash machine 1 cajero automatico
computer keyboard 1 teclado computador
digital clock 3 reloj digital
dishwasher 1 lavavajillas
hammerhead 1 cabeza de martillo
home theater 2 teatro en casa
laptop 2 portatil
lighter 1 encendedor
medicine chest 4 botiquin
microwave 1 microonda
modem 4 modem
nail 4 Uña
nematode 3 nematodo
notebook 2 cuaderno
pág. 44
oil filter 2 filtro de aceite
paper towel 1 toalla de papel
pedestal 1 Pedestal
pencil sharpener 1 Sacapuntas
safe 1 Seguro
screen 25 Pantalla
shoji 1 Shoji
shower curtain 1 cortina de la ducha
sliding door 2 puerta corrediza
soap dispenser 2 dispensador de jabon
spotlight 10 Destacar
studio couch 1 sofa estudio
toilet tissue 1 papel de baño
washbasin 2 Lavabo
window shade 6 Persiana
Total general 97
Tabla 3. Tabla de resultados prueba 2
De la tabla 3, se evidencia un total de 97 encontrados donde en un objeto se tiene varias
cantidades encontradas según la librería de reconocimiento, se toman los siguientes cálculos
sobre los totales de resultados correctos e incorrectos:
V1 = Objetos Reconocidos Correctamente
𝑽𝟏 =𝑅𝑒𝑠𝑢𝑙𝑡𝑎𝑑𝑜𝑠 𝐶𝑜𝑟𝑟𝑒𝑐𝑡𝑜𝑠
𝑇𝑜𝑡𝑎𝑙=
58
97= 0,59793814 − − − − > 59.7 %
V2 = Objetos Reconocidos Incorrectamente
𝑽𝟐 =𝑅𝑒𝑠𝑢𝑙𝑡𝑎𝑑𝑜𝑠 𝐼𝑛𝑐𝑜𝑟𝑟𝑒𝑐𝑡𝑜𝑠
𝑇𝑜𝑡𝑎𝑙=
39
97= 0,4020618557 − − − > 40.2 %
pág. 45
De la tabla 3, se evidencia un total de 97 encontrados donde en un objeto se tiene varias
cantidades encontradas según la librería de reconocimiento, ahora la siguiente tabla expone el
total de resultados con su porcentaje más alto de semejanza del reconocimiento dados por el
algoritmo.
OBJETO SEMEJANZA
window shade 51.68%
pedestal 51.87%
home theater 53.34%
spotlight 54.65%
toilet tissue 55.58%
studio couch 66.97%
window shade 69.34%
Screen 70.78%
Screen 72.86%
soap dispenser 73.13%
shower curtain 75.52%
washbasin 77.90%
sliding door 78.79%
medicine chest 80.84%
paper towel 90.02%
Tabla 4. Tabla de resultados prueba 2
con porcentajes
Para el algoritmo se realizó la medida con una
probabilidad de semejanza mayor a 50 %, en
este escenario (prueba 2) se encontraron 15
resultados mayor a esta medida de los cuales 12
resultados son los más aproximados.
Se realizó la siguiente regla de 3 para el
porcentaje de los resultados denominados con
V3 = (Resultados mas aproximados*100) /
Total Resultados
V3 = (12*100) / 15
pág. 46
3.3 Prueba 3.
Se evidencia la figura 21 que es la foto original, y se exponen los resultados encontrados en la
siguiente tabla.
Figura 21. Living Room prueba 3
RESULTADOS CANTIDAD
ENCONTRADA TRADUCCION
binder 1 carpeta
dishwasher 5 lavavajillas
folding chair 2 silla pegable
home theater 3 teatro en casa
loudspeaker 2 altoparlante
microwave 14 microonda
notebook 1 cuaderno
screen 8 pantalla
shoji 2 shoji
spotlight 2 foco
switch 2 interruptor
Total general 42
Tabla 5. Tabla de resultados prueba 3
pág. 47
De la tabla 5, se evidencia un total de 42 encontrados donde en un objeto se tiene varias
cantidades encontradas según la librería de reconocimiento, se toman los siguientes cálculos
sobre los totales de resultados correctos e incorrectos:
V1 = Objetos Reconocidos Correctamente
𝑽𝟏 =𝑅𝑒𝑠𝑢𝑙𝑡𝑎𝑑𝑜𝑠 𝐶𝑜𝑟𝑟𝑒𝑐𝑡𝑜𝑠
𝑇𝑜𝑡𝑎𝑙=
21
42= 0,5 − − − − > 50 %
V2 = Objetos Reconocidos Incorrectamente
𝑽𝟐 =𝑅𝑒𝑠𝑢𝑙𝑡𝑎𝑑𝑜𝑠 𝐼𝑛𝑐𝑜𝑟𝑟𝑒𝑐𝑡𝑜𝑠
𝑇𝑜𝑡𝑎𝑙=
21
42= 0,5 − − − > 50 %
De la tabla 3, se evidencia un total de 42 encontrados donde en un objeto se tiene varias
cantidades encontradas según la librería de reconocimiento, ahora la siguiente tabla expone el
total de resultados con su porcentaje más alto de semejanza del reconocimiento dados por el
algoritmo.
OBJETO SEMEJANZA
binder 63.54%
dishwasher 51.44%
folding chair 95.70%
home theater 87.88%
loudspeaker 51.39%
microwave 85.13%
microwave 75.62%
screen 62.98%
spotlight 55.68%
switch 64.75%
Tabla 6. Tabla de resultados prueba 3 con porcentajes
pág. 48
Mencionando estos cálculos y resultados de la figura 20, se genera la siguiente lista, que entra
a hacer procesado en el módulo (sintetizador de audio / voz) y emite el audio de la lista de
objetos para posteriormente ser escuchada por la persona que está usando el prototipo.
La lista de esta prueba es:
['screen', 'loudspeaker', 'binder', 'folding chair', 'home theater', 'spotlight', 'switch', 'notebook']
Para el algoritmo se realizó la medida con una probabilidad de semejanza mayor a 50 %, en
este escenario (prueba 3) se encontraron 10 resultados mayor a esta medida de los cuales 6
resultados son los más aproximados.
Se realizó la siguiente regla de 3 para el porcentaje de los resultados denominados con V3
= (Resultados mas aproximados*100) / Total Resultados
V3 = (6*100) / 10
pág. 49
4. Conclusiones y recomendaciones
4.1 Conclusiones
De acuerdo con los objetivos identificados y establecidos cuando se inició el proyecto se puede
concluir lo siguiente:
1. Raspberry Pi 3, es el sistema embebido ideal para esta clase de proyectos económicos
gracias a que sus especificaciones técnicas de verdad cumplen con algunas de las
necesidades presentadas ya sea por presupuesto o requerimientos que pueden
considerarse como rigurosos al tener que hacer uso de cámaras y transferencia de
datos e información por video a una velocidad constante y estable sin retardos por lo
que Raspberry Pi 3 cumple con las expectativas esperadas.
2. Los porcentajes entregados por el algoritmo en el reconocimiento de objetos del
entorno tienden a generar una redundancia de información e imágenes entre los
escenarios de pruebas, ya que los ambientes y/o escenarios no eran controlados así
que el reconocimiento tiende a variar mucho de acuerdo a los objetos del entorno pero
esa desviación no era tan alejada a la realidad.
3. El prototipo depende de su cabecera (en este caso la Cámara Py) que toma la imagen
inicial o ejemplo, en los resultados con imágenes y escenarios más claros y con
iluminación, el indicador de reconocimiento correctos da mejores expectativas de
semejanzas de los objetos, a comparación de este mismo indicador en escenarios no
tan claro y con poca iluminación, aquí también entra a jugar el papel del enfoque y
megapíxeles de la cámara Py ya que existen mejores cámaras con mejores
características y especificaciones técnicas para brindar mejores resultados.
4. Nuestro proyecto se desarrolló con arquitectura y tecnología conocida y perfeccionada
a lo largo de nuestra carrera formativa en la universidad, junto a la experiencia en
nuestro trabajado y mucha dedicación, el resultado de la investigación y de múltiples
pruebas de funcionamiento tratando que los objetivos se cumplieran según lo
planteado.
pág. 50
4.2 Recomendaciones
1. Se recomienda continuar con el proyecto reemplazando los dispositivos como la cámara
por una que tenga una mayor resolución o disponga de otras tecnologías adicionales,
como las cámaras IP actualizando físicamente las posibilidades de identificación de
objetos en el entorno con mayor resolución.
2. Se recomienda plantear un nuevo dispositivo hardware con mayor procesamiento para
reducir la lentitud y optimizar los tiempos de ejecución.
3. Es recomendable considerar otras librerías de procesamiento de imágenes como el
utilizado OpenCV ya que el dar un enfoque distinto o similar significa enriquecer el uso
de las tecnologías y abrir las puertas a muchas posibilidades y óptimos resultados.
Actualmente otras librerías al utilizar seria el modelo Caffe Model Zoo.
pág. 51
5. Bibliografía
[1] Altuna, M. (5 de Febrero de 2012). Aplicación práctica de la visión artificial en el control de
procesos industriales. Obtenido de CENTRE INTEGRAL DE FORMACIO PROFESSIONAL DE LA
GARROTXA.
[2] Angie P Rosado, Carlos E. Carrascal, Diseño de un dispositivo electrónico para la detección
de obstáculos en personas con discapacidad visual, Ocaña Norte de Santander, 2012.
[3] Araujo Santos, L. (2018). GoogleNet. En Inteligencia Artificial. Gitbooks.
[4] Atriano Perez, N. (2012). Piramides Y Wavelets. En Piramides Y Wavelets (págs. 10-14).
[5] Bejar, I. (14 de Febrero de 2013). Introduccion a la Inteligencia Artificial. Obtenido de
Universidad Politecnica de Catalunya.
[6] Bocanegra Rivera, C. F. (2013). BOLETIN JURIDICO TRIMESTRAL NO. 08. IBAGUE.
[7] Cardenes Almeida, R. (2008). Inteligencia Artificial.
[8] Clark, K. (2018). Bluebox wIFE. Estantia House.
[9] Cognex. (2016). INTRODUCCIÓN A LA VISION ARTIFICIAL. Natick, Massachusetts.
[10] Cook , K., Drayer, A., & Imbert , A. (2004). Plug and Play Technology.
[11] Dipert, B., & Bier, J. (2015). The Caffe Deep Learning Framework: An Interview with the
Core Developers. California: Basler.
[12] Gutierrez Santiago, A., & Cancela Carral, J. M. (2006). DE LA “MINUSVALÍA” VISUAL A LA
“DISCAPACIDAD” VISUAL. Revista de investigación en educación, 33-50.
pág. 52
[13] Jia, Y., & Shelhamer, E. (2014). Caffe: Convolutional Architecture for Fast Feature
Embedding. arXiv preprint.
[14] Krizhevsky, A., Sutskever, I., & Hinton, G. (2014). ImageNet Classification with Deep
Convolutional. Toronto.
[15] Loncomilla, P. (2016). Deep learning: Redes convolucionales. Puebla.
[16] López Briega, R. (02 de Agosto de 2016). Redes neuronales convolucionales con
TensorFlow. Obtenido de GITHUB.IO.
[17] López, R. (07 de Mayo de 2014). ¿Qué es y cómo funciona “Deep Learning”? . Obtenido de
WordPress.
[18] Marder, E., & Goaillard, J.-M. (2006). Nature Reviews Neuroscience volumen 7. En
[19] Matich, D. J. (2001). Redes Neuronales: Conceptos Básicos. Rosario.
[20] Nature Reviews Neuroscience volumen 7 (págs. 563-574). Massachusetts.
[21] Nielsen, M. (2015). Neural Networks and Deep Learning. Determination Press.
[22] OMS. (2001). Clasificación Internacional del Funcionamiento de la Discapacidad y de la
Salud. Santander: AMICA.
[23] Pino Diez, R., De la Fuente García, D., Parreño Fernándes, J., Priore, P. (2004). Aplicación
de redes neuronales artificiales al cálculo de previsiones a corto plazo en el mercado eléctrico
español. España
[24] Ruiz, H. (2018). ¿Qué es la visión artificial y cómo puede mejorar tu aplicación?
Barcelona: Infaimon.
pág. 53
[25] Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., . . . Karpathy, A. (2015).
ImageNet Large Scale Visual Recognition Challenge. Florida: IJCV.
[26] Sadato, N., Pascual-Leone, A., & Grafman, J. (1998). Neural networks for Braille reading by
the blind. Oxford.
[27] Suarez Escudero, J. C. (2011). Discapacidad visual y ceguera en el adulto. Medicina U.P.B.,
170-180.
[28] Wright, T. (2018). Guide Dogs’ strategy is evolving. FORWARD, 5-6.
[29] Zimmermann Casado, M. (03 de Noviembre de 2014). Sistema de recolección de objetos
mediante visión artificial y planificación automática. Obtenido de Universidad Carlos III de
Madrid.
pág. 54
6. Anexo 1.
pág. 55
pág. 56
Top Related