Download - Sistema de Reconocimiento del entorno para personas con ...

pág. 1

Sistema de Reconocimiento del entorno

para personas con discapacidad visual

Ruth Luzcena Montaña Rodríguez

Brayan Molina Pulido

Wilson Moya Suesca

Wendy Jeraldyn Puentes Ardila

Fundación Universitaria Unipanamericana – Compensar

Facultad de Ingeniería, Ingeniería de Telecomunicaciones

Bogotá, Colombia

2018

pág. 2

Sistema de Reconocimiento del entorno

para personas con discapacidad visual

Ruth Luzcena Montaña Rodríguez

Brayan Molina Pulido

Wilson Moya Suesca

Wendy Jeraldyn Puentes Ardila

Trabajo de grado presentado como requisito parcial para optar al título de:

Ingeniería de Redes y Telecomunicaciones

Director (a):

M.sc Ing. ANDRES ESTEBAN PUERTO LARA

Fundación Universitaria Unipanamericana – Compensar

Facultad de Ingeniería, Ingeniería de Telecomunicaciones

Bogotá, Colombia

2018

pág. 3

(Dedicatoria o lema)

“Camino lento, pero nunca camino hacia atrás”

Abraham Lincoln

pág. 4

Agradecimientos

En primer lugar, nos gustaría agradecer a nuestro tutor, Andrés Puerto Lara, por aceptar la

propuesta de este proyecto, así como el apoyo durante la realización del mismo.

Agradecer a todas las personas, compañeros y profesores de la universidad Unipanamericana

los cuales nos brindaron orientación acerca del proyecto y permitieron espacios para poder

laboral sobre este proyecto en horarios académicos.

Por último, agradecer a cada uno de los integrantes y cada una de sus familias por su apoyo

prestado día a día durante la duración del proyecto, sin el cual, habría sido imposible finalizarlo.

pág. 5

Resumen

A nivel internacional la discapacidad visual se describe como la dificultad que presentan

algunas personas para poder realizar sus actividades cotidianas debido a la disminución o

perdida de las funciones visuales que afecta varios aspectos en relación con la sociedad y el

cambio constante del mundo día a día. Las personas con discapacidad visual además de su

limitante carecen de apoyo para que puedan desempeñar su rol en la sociedad y como persona.

Los grandes avances de las tecnologías en diferentes campos y ciencias permiten y han

permitido que se desarrollen nuevas técnicas y herramientas que proporcionen ayudas sobre

las discapacidades y limitaciones de las personas logrando así una mejor calidad de vida. Bajo

este documento se emplea modelos de inteligencia artificial basados en modelo de

procesamiento en millones de imágenes que proporcionen una identificación del entorno de

ubicación para las personas con discapacidad visual o parcial.

Palabras Clave: Discapacidad Visual, Visión Artificial, Imágenes, Redes Neuronales,

Convolucion

pág. 6

Abstract

At the international level, visual disability is described as the difficulty that some people present

in order to be able to carry out daily activities due to the decrease or loss of the visual functions

that are related to society and the constant change of the world day by day. People with visual

disabilities in addition to their limit of support so that they can play their role in society and as

a person. The great advances of the technologies in different fields and sciences allow and have

allowed to develop new techniques and tools that provide on the disabilities and limitations of

the people thus achieving a better quality of life. Under this document artificial intelligence

models are used based on models of processing millions of images that provide an identification

in the environment of the location for people with visual or partial disability.

Keywords: Visual disability, Artificial visión, Deep Learning, Neuron Network, Convolution

pág. 7

Contenido PÁG.

LISTA DE FIGURAS ....................................................................................................................................................... 9

LISTA DE TABLAS ...................................................................................................................................................... 10

INTRODUCCIÓN ......................................................................................................................................................... 11

ANTECEDENTES ......................................................................................................................................................... 12

JUSTIFICACION ........................................................................................................................................................... 14

IDENTIFICACIÓN DEL PROBLEMA ...................................................................................................................... 15

OBJETIVO GENERAL ................................................................................................................................................. 16

OBJETIVOS ESPECÍFICOS ........................................................................................................................................ 16

ALCANCES Y LIMITACIONES .................................................................................................................................. 16

1. MARCO TEÓRICO ............................................................................................................................................. 18

1.1 VISION ARTIFICIAL ........................................................................................................................................................ 18 1.1.1 Caracteristicas ...................................................................................................................................................... 18

1.1.2 Aplicaciones .......................................................................................................................................................... 19

1.1.3 Reconocimiento ................................................................................................................................................... 19

1.2 Redes Neuronales .................................................................................................................................................... 20 1.2.1 Ventajas red neuronal ...................................................................................................................................... 21

1.2.2 Tipos de Redes Neuronales ............................................................................................................................ 23

1.3 Redes Neuronales Convolucionales ................................................................................................................. 24 1.3.1 Arquitecturas básicas CNN (Convolutional neural network) ......................................................... 24

1.4 Caffe ................................................................................................................................................................................ 24 1.4.1 Evolucion De Caffe .............................................................................................................................................. 25

1.5 ImageNet ...................................................................................................................................................................... 26 1.6 GoogleNet..................................................................................................................................................................... 26

1.6.1 Arquitectura GoogleNet ................................................................................................................................... 26

1.6.1.1 Capa Convolucional ...................................................................................................................................... 27

1.6.1.2 Capa de reducción o pooling .................................................................................................................... 27

1.6.1.3 Capa SoftMax ................................................................................................................................................... 27

1.6.1.4 Capas de otras clases ................................................................................................................................... 27

2. METODOLOGIA ................................................................................................................................................. 29

2.1 ADQUISICIÓN .................................................................................................................................................................. 29 2.1.1 Raspberry Pi Model B+ ..................................................................................................................................... 29

2.1.2 Raspberry Pi Cámara V2 .................................................................................................................................. 30

2.2 DISEÑO ............................................................................................................................................................................ 31 2.2.1 Ventana Deslizante ............................................................................................................................................. 31

2.2.2 Pirámides Gaussianas ....................................................................................................................................... 31

2.2.3 Diagrama de bloques del prototipo ............................................................................................................ 33

2.2.4 Funcionamiento Diagrama de bloques del prototipo ......................................................................... 34

pág. 8

2.3 IMPLEMENTACION ......................................................................................................................................................... 35 2.3.1 Inicio ......................................................................................................................................................................... 35

2.3.2 Proceso de Reconocimiento ........................................................................................................................... 35

2.3.3 Proceso de Reconocimiento con Ventana Deslizante ......................................................................... 36

2.3.4 Proceso de Reconocimiento Piramides Gaussianas ............................................................................ 38

2.4 PRESENTACION ............................................................................................................................................................... 39

3. RESULTADOS .................................................................................................................................................... 40

4. RECOMENDACIONES Y CONCLUSIONES ................................................................................................... 49

5. BIBLIOGRAFIA .................................................................................................................................................. 51

6. ANEXOS ............................................................................................................................................................... 54

pág. 9

Lista de Figuras PÁG.

Figura 1: Fases de Reconocimiento................................................................................................................. 19

Figura 2: Modelo Perceptrón ............................................................................................................................. 20

Figura 3: Red de múltiples capas de perceptrones ................................................................................... 21

Figura 4: Proceso de convolucion por capa ................................................................................................. 28

Figura 5: Raspberry Pi Model B+ ..................................................................................................................... 30

Figura 6: Raspberry Pi Cámara V2 .................................................................................................................. 30

Figura 7: Ventana Deslizante ............................................................................................................................. 31

Figura 8: Pirámide Gaussianas .......................................................................................................................... 32

Figura 9: Diagrama de bloques de funcionamiento de Prototipo ....................................................... 33

Figura 10: Captura de imagen ejemplo ......................................................................................................... 35

Figura 11: Proceso de Reconocimiento Oso de peluche........................................................................ 35

Figura 12: Proceso de Reconocimiento Balón de futbol ....................................................................... 36

Figura 13: Cocina Prueba .................................................................................................................................... 36

Figura 14: Cocina Prueba ventana deslizante tipo 1 ............................................................................... 37

Figura 15: Cocina Prueba ventana deslizante tipo 2 ............................................................................... 37

Figura 16: Sala prueba pirámides Gaussianas tipo 1............................................................................... 38



Figura 19: Sala prueba 1 ...................................................................................................................................... 40

Figura 20: Baño Prueba ...................................................................................................................................... 43

Figura 21: Living Room prueba 3 ................................................................................................................... 46

pág. 10

Lista de Tablas PÁG.

Tabla 1: Tabla de resultados prueba 1 .......................................................................................................... 41

Tabla 2: Tabla de resultados prueba 1 con porcentajes 3 ..................................................................... 42





pág. 11

Introducción

La discapacidad visual se define como perdida de la vista en los ojos y su campo visual, esto

quiere decir que hay una degradación o deterioro importante de la agudeza visual del ojo aun

así con la utilización de lentes como consecuencia presentan barreras para ejercer actividades

diarias.

En Colombia a través del Registro de Localización y Caracterización de personas con

discapacidad RLCPD se han identificado 1.379.001 personas, de las cuales el 3 % de los

colombianos están en el registro de discapacidad (Social, 2015), de la anterior cifra el 13,0 %

(179.471) tienen discapacidad visual, un hecho de magnitudes muy significativas si se tiene en

cuenta que para un individuo con esta condición es muy difícil vincularse a la gran mayoría de

los escenarios en que los sujetos se relacionan como: dificultad para caminar, correr y saltar,

entre otros, también presentan dificultades visuales cuyas causas pueden ser variadas, desde

una enfermedad crónica, infecciones, golpes, hasta problemas congénitos (Administrativo,

2006). Sin embargo, las tecnologías existentes que se dirigen a la asistencia de esta población,

resultan ser poco favorecedoras o alentadoras en comparación con las grandes necesidades que

enfrentan, sin incluir el alto costo que genera la utilización de las mismas.

Según el Registro de localización y caracterización del Ministerio de Salud y Protección Social

en 2018 muestra que el 87.8% de la población con discapacidad visual está clasificada en los

niveles I y II del SISBEN lo cual demuestra que esta población no dispone de los recursos

necesarios para adquisición de dichas herramientas (Brechas, n.d.) para progresar el curso de

la condición de estas personas, hay una deficiencia notable en el desarrollo de herramientas

tecnológicas que les permitan desenvolverse de un modo autosuficiente en sus tareas diarias.

La ley de 1680 del 20 de noviembre de 2013 describe los recursos para incluir a la población

con problemas visuales en el país, concentrándose en los contenidos digitales y las Tecnologías

de la Información y Comunicación.

En la actualidad se han realizado aportes tecnológicos para personas invidentes en la cual

Colombia se destaca en el desarrollo de estas soluciones el cual busca generar oportunidades

pág. 12

en el ámbito educativo, laboral, cultural y social. Gracias a estos aportes ha sido posible avanzar

su curso en la inclusión de esta población en el mundo de las TIC’s.

De acuerdo a la información y estadísticas presentadas anteriormente, el presente trabajo de

investigación tiene como finalidad la creación de un dispositivo de bajo costo de apoyo a las

personas con discapacidad visual total o parcial que aporte a la identificación de objetos del

entorno como por ejemplo el hogar. Para el desarrollo del plan de trabajo se determinaron e

investigaron las principales dificultades en términos de desplazamiento para las personas con

discapacidad visual. Para ello se debió definir previamente los conceptos teóricos a utilizar, la

tecnología más apropiada, el diseño incluyo un acercamiento de entorno, teniendo en cuenta lo

anterior se describirá en hardware los elementos utilizados.

En el ámbito teórico se realiza investigación del número de personas que presentan problemas

de visión, se realiza énfasis en la legislación colombiana y mundial con el fin de recalcar los

derechos y deberes de las personas con discapacidad visual, se desarrolla un estudio de campo

el cual permite identificar el nivel de aceptación de la tecnología hacia a esta población.

Antecedentes

Entre 400 y 450 millones de personas alrededor del mundo padecen de discapacidad visual

total, unos 135 millones tiene discapacidad visual parcial y 314 tienes problemas visuales en

donde las principales causas son errores de visión no corregidos, cataratas no operadas,

degeneración muscular por la edad, glaucoma, entre otros, donde las personas que están en

riesgo son personas mayores de 50 años y niños menores de 12 años. Así mismo la OPS

(Organización Panamericana de la Salud) indica sobre que sobre el año 2010 en América Latina

y el Caribe por cada millón de habitantes hay 20.000 casos de personas con discapacidad visual

y un aproximado de 5000 de personas invidentes y donde se evidencia las cegueras más

frecuentes o con más altos índices de probabilidad está en el género femenino con reporte casi

de un 60% de la población invidente. (Suarez Escudero, 2011).

pág. 13

La publicación de la CIDDM (Clasificación Internacional de las Deficiencias, Discapacidades y

Minusvalías) puesta en marcha en la década de los setenta, siendo aprobada por la OMS en el

año 1980 para ejercer su función. Sobre la resolución 29.35 en la 29ª Asamblea Mundial de la

Salud en donde se superaron problemas con otras entidades como CIE (Clasificación

Internacional de Enfermedades) donde se declaró y se definió los siguientes términos para

discapacidad, donde se indicada la deficiencia como perdida o anormalidad de funciones

psicológicas, fisiológicas o anatómicas; discapacidad haciendo referencia a restricción o

ausencia de la capacidad de realizar una actividad normal debido a una deficiencia (OMS, 2001),

y donde declara el termino minusvalía una consecuencia de una deficiencia o de una

discapacidad limitante en su desempeño (OMS, 2001); así donde esta publicación ha sido usada

por más de 20 años donde han realizado revisiones y calibraciones durante un periodo más de

una década. (Gutiérrez Santiago & Cancela Carral, 2006).

Las Grandes compañías y sus avances tecnológicos intervienen en el mercado de diferentes

maneras para generar apoyo a las personas con discapacidad visual en el desarrollo de sus

labores diarias, como, por ejemplo, Microsoft en asociación con Guide Dogs de Reino Unido

organización de entrenamiento de perros guías para personas con discapacidad visual (Wright,

2018), desarrollan kit de manos libres para mejorar la movilidad de este tipo de personas y con

la compañía Airlines Virgin Atlantic y una firma de tecnología llamada Bluebox Aviation

Systems (Clark, 2018) donde generaron un sistema de entretenimiento accesible para personas

con discapacidad visual para la línea de vuelos en el mes de diciembre del año 2017 donde

estuvo recopilado el sistema sobre dispositivos IPad donde las personas con Guide Dogs

accedían directamente a la línea por la recomendación indicada (Wright, 2018).

También Microsoft en conjunto con APPLE en donde apoyados con organizaciones industriales

intentan desarrollar el estándar de diseño de interfaz humana (HID) para pantallas braille y

lectura de esta misma (Sadato, Pascual-Leone, & Grafman, 1998), logrando interactuar por

medio del Plug and Play (Conecta y Reproduce) en este tipo de pantallas, haciendo que los

dispositivos físicos coincidan con los controladores de dispositivos de software que los

manipulan para establecer el canal de comunicación, también donde deben tener los recursos

pág. 14

del sistema que incluyen solicitudes de interrupción, acceso directo a la memoria, dispositivos

de entrada y salida y direcciones de memoria para tener una interfaz uniforme para almacenar

y recuperar recursos así no presenta conflictos ni daños, lo que la BIOS transfiere al sistema

operativo para el proceso de arranque, la configuración y el control de los dispositivos Plug and

Play (Cook , Drayer, & Imbert , 2004) de esta manera se han recibido múltiples propuestas de

inversión por parte de empresas y organizaciones que atienden a las personas con discapacidad

visual.

Justificación

Según los resultados que entrego el DANE el 2 de noviembre del Censo Nacional de Población y

Vivienda 2018, en Colombia somos 45.500.000 de personas de las cuales el 7,2% de la población

censada presenta alguna discapacidad, lo que se traduce cerca de 3.500.000 personas con algún

tipo de discapacidad. Lo cual indica que la cifra de discapacidad ha crecido en los últimos años,

pues en el censo del 2005, la población con discapacidad correspondía al 6,4%.

En la actualidad hay métodos tradicionales utilizados en la población con discapacidad visual,

se encuentran los rotuladores en gel que toma el relieve de un circuito el cual es percibido por

las personas que presentan la discapacidad visual, a partir de lo anterior se propuso el proyecto

de GuiaHme que es un dispositivo que retroalimenta al usuario y guiarlo a través de los distintos

circuitos que se imparten en la carrera de Ingeniería Informática. Este proyecto no fue

distribuido ya que se encontraron con impedimentos para las asociaciones especializadas en

incluir tecnologías o invertir en novedades de realidad virtual.

Debido a los impedimentos que se presentan al distribuir un dispositivo electrónico se opta por

el diseño de un prototipo de bajo costo que reconoce los objetos presentes en el entorno, toma

una imagen, realiza el proceso y luego es convertido en voz con el fin de orientar a las personas

con discapacidad visual o baja visión en cuanto a los posibles obstáculos con los que se puedan

encontrar o facilitar las tareas que desarrolla a diario esta población, ayuda en desplazamiento

para ofrecer alternativas que mejoren la calidad de vida y se note una diferencia con las

herramientas de uso frecuente las cuales dan aviso con anterioridad sobre los obstáculos que

estén presentes en el área en el que se moviliza.

pág. 15

Identificación del Problema

Las personas que padecen de discapacidad visual presentan problemas al momento de

desplazarse en el hogar o por diferentes partes de la ciudad ya que se encuentra con entornos

con dificultades y obstáculos como las escaleras, avisos colgantes, letreros de publicidad,

huecos que no tienen señalización lo cual expone a estas personas a una inseguridad física.

Junto a las dificultades antes nombradas también se encuentra una falta de solidaridad por

parte de la comunidad, quienes no colaboran ni se apropian de las necesidades que presentan

los invidentes al realizar desplazamientos.

Algunas personas invidentes se movilizan acompañadas de un perro guía el cual es el encargado

de avisarle a su propietario la presencia de obstáculos, pero actualmente se encuentran varias

denuncias de exclusión en el uso de perros guía porque se les niega el ingreso a

establecimientos comerciales, entidades financieras y sistemas de transporte público, lo

anterior debido a que hay un desconocimiento en cuanto a la gran importancia del uso de los

perros lazarillo para poder realizar de forma segura la movilidad.

También se encuentra que la mayoría de la población con discapacidad visual usa el bastón y

se encuentran con limitaciones en las vías que frecuentan por la presencia de postes de luz que

no están alineados, basureros instalados en medio de las aceras, las rampas que tienen estas

aceras para mejorar la movilidad de las personas que utilizan las sillas de ruedas ya que los

invidentes no pueden identificar cuando termina la acera y se pueden encontrar en una vía con

alto tránsito de automóviles, los baches en las calles, cabinas telefónicas que no tienen mucho

uso y las baldosas desniveladas hacen parte de los obstáculos con la que conviven cientos de

personas invidentes.

pág. 16

Objetivo General Diseñar un prototipo basado en visión artificial que proporcione la identificación del entorno

para guiar a personas con discapacidad visual parcial o total.

Objetivos Específicos

Identificar el tipo de cámara con los aspectos necesarios cuyas características de

fabricación permitan una adquisición detallada de las imágenes teniendo en cuenta su

costo beneficio para el entorno.

Escribir un algoritmo de programación utilizando librerías de procesamiento de

imágenes que permita caracterizar e identificar objetos dentro del entorno de las

personas con discapacidad visual.

Integrar el algoritmo de visión artificial en un sistema embebido con capacidades de

procesamiento de imágenes.

Evaluar la posibilidad de convertir el dispositivo en un wearable teniendo en cuenta el

hardware utilizado.

Alcances y Limitaciones

Alcances

El modelo propuesto será dirigido únicamente a personas con discapacidad visual

parcial o total.

El proyecto se focalizará en dar cumplimiento a algunas de sus necesidades básicas que

permitan la autonomía por medio de la tecnología y así mismo que corresponda con el

proyecto de vida de una persona con discapacidad visual.

pág. 17

Limitaciones

Presentación de contenido y producto desde la perspectiva de la accesibilidad.

Dificultad para entender el funcionamiento del dispositivo y la utilización del mismo.

La velocidad de procesamiento que se necesita es alta. Hay que tener en cuenta que es

necesario estar analizando todas las imágenes que capta un video en todo momento

para reconocerlas y actuar en consecuencia.

Capacidad limitada de Hardware: Problemas en el perfeccionamiento de las imágenes.

Sobrecarga visual y tiempo de respuesta de la aplicación, que para construir muchos

objetos requerirá del uso de más memoria.

pág. 18

1. Marco teórico

1.1 Visión Artificial.

Para definir la visión artificial inicialmente se describe la inteligencia artificial (IA) como el

sistema de cómo actúan y piensan los humanos, donde el objetivo es construir un sistema que

pase por humano, donde cuenta con capacidades necesarias como procesamiento del lenguaje

natural, representación del conocimiento, razonamiento y ciencias cognitivas. Además

también estos sistemas actúan y piensan racionalmente donde significa conseguir unos

objetivos dadas una creencias. (Bejar, 2013).

Según la Automated Imaging Association (Asociación de imágenes automatizadas) AIA, la

visión artificial abarca todas las aplicaciones industriales y no industriales en las que una

combinación de hardware y software brinda un guiado operativo a los dispositivos en la

ejecución de sus funciones de acuerdo con la captación y procesamiento de imágenes. Aunque

la visión artificial aplicada a la industria utiliza los mismos algoritmos y enfoques que las

aplicaciones académicas/educativas y gubernamentales/militares de visión artificial, las

limitaciones son diferentes. (Cognex, 2016).

La visión artificial la componen un conjunto de procesos destinados a realizar el análisis de

imágenes. Estos procesos son: captación de imágenes, memorización de la información,

procesado e interpretación de los resultado, entre otros.

1.1.1 Características

Automatizar tareas repetitivas de inspección realizadas por operadores.

Realizar controles de calidad de productos que no era posible verificar por métodos

tradicionales.

Realizar inspecciones de objetos sin contacto físico.

Realizar la inspección del 100% de la producción (calidad total) a gran velocidad. al

obtener un producto libre de defectos o elementos deteriorados, se está ofreciendo un

pág. 19

producto de una calidad mucho más elevada, lo que implica un producto que satisfacerá

a los clientes finales de forma asegurada. (Ruiz, 2018).

Reducir el tiempo de ciclo en procesos automáticas.

Realizar inspecciones en procesos donde existe diversidad de piezas con cambios

frecuentes de producción. (Altuna, 2012).

Cuentan con sensores digitales protegidos en el interior de cámaras industriales con

ópticas especializadas para adquirir imágenes, de forma que el hardware y software

informático pueden procesar, analizar y medir diversas características.

1.1.2 Aplicaciones

Identificación e inspección de objetos.

Determinación de la posición de los objetos en el espacio.

Establecimiento de relaciones espaciales entre varios objetos (guiado de robots).

Determinación de las coordenadas importantes de un objeto.

Realización de mediciones angulares.

Mediciones tridimensionales. (Altuna, 2012).

1.1.3 Reconocimiento

Es la tarea más utilizada en el campo de la visión artificial, se trata del procesado de imagen

cuyo objetivo es determinar si una imagen contiene un objeto, característica o actividad. Las

técnicas actuales permiten reconocer objetos, colores, caras humanas, caracteres escritos a

máquina o a mano, vehículos. Para poder reconocer los elementos anteriores, es necesario que

se den unas condiciones adecuadas de iluminación, entorno y posición relativa a la cámara. Este

tipo de reconocimiento, para los humanos es trivial pero se trata de una tarea compleja de

resolver por los sistemas de visión artificial si se quiere realizar de manera genérica y en

condiciones variables. ( Zimmermann Casado, 2014).

Figura 1. Fases de Reconocimiento

pág. 20

1.2 Redes Neuronales

Se puede definir de varias maneras, como una nueva forma de computación que es inspirada

en modelos biológicos formados por elementos que se comportan de manera análoga a las

neuronas y están organizadas de forma similar al cerebro o también como un modelo

matemático, compuesto por un gran número de elementos organizados jerárquicamente.

Las neuronas pueden vivir durante decenas de años, los canales iónicos y los receptores

cambian en la membrana en minutos, horas, días o semanas. Esto significa que las neuronas se

están reconstruyendo constantemente y los circuitos neuronales están en un estado constante

de flujo molecular. Además, se necesitan mecanismos homeostáticos (equilibrio interno de las

condiciones físicas y químicas en el ser humano) que ayudan a regular la excitabilidad

intrínseca y la fuerza sináptica para estabilizar el rendimiento del circuito (Marder & Goaillard,

2006).

Dentro de las redes neuronales existe una neurona artificial llamada perceptrón, desarrollados

en las décadas de 1950 y 1960 por el científico Frank Rosenblatt. Los perceptrones funcionan

tomando varias entradas binarias y produce una salida binaria única

Figura 2. Modelo Perceptrón

En el ejemplo mostrado, el perceptrón tiene tres entradas, x1, x2, x3.. En general podría tener

más o menos entradas. Rosenblatt propuso una regla simple para calcular la salida. Introdujo

pesos, w1, w2, ... , números reales que expresan la importancia de las entradas respectivas a la

salida. La salida de la neurona, 0 o 1, está determinada por si la suma ponderada ∑jwjXj es

menor o mayor que algún valor de umbral. Al igual que los pesos, el umbral es un número real

que es un parámetro de la neurona. (Nielsen, 2015).

pág. 21

Como lo menciona Nielsen el perceptrón no es un modelo o sistema completo para la toma de

decisiones humanas, pero lleva al aprendizaje del modelo en cómo puede medir y analizar

diferentes tipos de evidencia para la toma de decisiones y que con entrenamiento del modelo

puede ser bastante útil. Según la figura # se indica la primera capa de perceptrones (de

izquierda a derecha) tomando una validación inicial de la evidencia de las entradas. La capa del

medio toma decisiones calculando y analizando los resultados de salida de primer nivel donde

la decisión tomada o escogida es de un nivel mas complejo y así sucesivamente en las capas

posteriores hasta llegar a la salida.

Figura 3. Red de múltiples capas de perceptrones

1.2.1 Ventajas red neuronal

Debido a su constitución y a sus fundamentos, las redes neuronales artificiales presentan un

gran número de características semejantes a las del cerebro. Esto hace que ofrezcan numerosas

ventajas y que este tipo de tecnología se esté aplicando en múltiples áreas:

Aprendizaje Adaptativo.

Tienen la capacidad de aprender a realizar tareas basadas en un entrenamiento o en

una experiencia inicial. Las redes neuronales son sistemas dinámicos auto adaptativos,

son adaptables debido a la capacidad de autoajuste de los elementos procesales

(neuronas) que componen el sistema y dinámicos, pues son capaces de estar

constantemente cambiando para adaptarse a las nuevas condiciones.

pág. 22

Auto-organización.

Las redes neuronales emplean su capacidad de aprendizaje adaptativo para auto

organizar la información que reciben durante el aprendizaje y/o la operación. Mientras

que el aprendizaje es la modificación de cada elemento procesal, la auto organización

consiste en la modificación de la red neuronal completa para llevar a cabo un objetivo

específico. Esta auto organización provoca la generalización: facultad de las redes

neuronales de responder apropiadamente cuando se les presentan datos o situaciones

a las que no había sido expuesta anteriormente. El sistema puede generalizar la entrada

para obtener una respuesta, esta característica es muy importante cuando se tiene que

solucionar problemas en los cuales la información de entrada no es muy clara; además

permite que el sistema dé una solución, incluso cuando la información de entrada está

especificada de forma incompleta. (Matich, 2001).

Tolerancia a fallos.

Las redes neuronales fueron los primeros métodos computacionales con la capacidad

inherente de tolerancia a fallos. Comparados con los sistemas computacionales

tradicionales, los cuales pierden su funcionalidad cuando sufren un pequeño error de

memoria, en las redes neuronales, si se produce un fallo en un número no muy grande

de neuronas y aunque el comportamiento del sistema se ve influenciado, no sufre una

caída repentina.

Operación en tiempo real.

Una de las mayores prioridades, casi en la totalidad de las áreas de aplicación, es la

necesidad de realizar procesos con datos de forma muy rápida. Las redes neuronales se

adaptan bien a esto debido a su implementación paralela. Para que la mayoría de las

redes puedan operar en un entorno de tiempo real, la necesidad de cambio en los pesos

de las conexiones o entrenamiento es mínimo.

pág. 23

Fácil inserción dentro de la tecnología existente.

Una red individual puede ser entrenada para desarrollar una única y bien definida tarea

(tareas complejas, que hagan múltiples selecciones de patrones, requerirán sistemas de

redes interconectadas). Con las herramientas computacionales existentes (no del tipo

PC), una red puede ser rápidamente entrenada, comprobada, verificada y trasladada a

una implementación hardware de bajo coste. Por lo tanto, no se presentan dificultades

para la inserción de redes neuronales en aplicaciones específicas, por ejemplo, de

control, dentro de los sistemas existentes. De esta manera, las redes neuronales se

pueden utilizar para mejorar sistemas en forma incremental y cada paso puede ser

evaluado antes de acometer un desarrollo más amplio. (Matich, 2001).

1.2.2 Tipos de Redes Neuronales

Redes de capa simple: La red más simple es la formada por un conjunto de perceptrones

(neurona artificial o unidad básica de inferencia en forma de discriminador lineal) a los

que entra un patrón de entradas y proporcionan la salida correspondiente.

Redes multicapa: Las redes multicapa se forman por un conjunto de redes de capa

simple en cascada unidas por pesos, donde la salida de una capa es la entrada de la

siguiente capa. Generalmente son capaces de aprender funciones que una red de capa

simple no puede aprender, por lo que ofrecen mejores capacidades computacionales.

Redes recurrentes: Las redes consideradas hasta ahora no tienen conexiones entre

pesos de la salida de una capa a la entrada de la misma capa o anteriores. Las redes que

poseen esta característica son conocidas como redes recurrentes. Las redes recurrentes

no tienen memoria, es decir, la salida solamente está determinada por las entradas y los

pesos. Las capas recurrentes redireccionan previas salidas a entradas. (Cardenes

Almeida, 2008).

pág. 24

1.3 Redes Neuronales Convolucionales

Son redes que se usan para procesar imágenes, donde se emplea relaciones entrada-salida,

donde la entrada es una imagen y están basadas en operaciones de convolucion (operación

matemática de la integral del producto de 2 señales), donde efectúa tareas de

detección/categorización de objetos, clasificación de escenas y clasificación de imágenes

(Loncomilla, 2016).

1.3.1 Arquitecturas básicas CNN (Convolutional neural

network)

Está compuesta por capas que filtran las entradas para obtener información útil. Estas capas

convolucionales tienen parámetros (kernel) que se aprenden para que estos filtros se ajusten

automáticamente para extraer la información más útil para la tarea en cuestión sin la selección

de características.

1.4 Caffe

Es un marco de aprendizaje profundo creado teniendo en cuenta la expresión, la velocidad y la

modularidad. Es desarrollado por el Laboratorio de Investigación de Inteligencia Artificial de

Berkeley (BAIR, por sus siglas en ingles) y por colaboradores de la comunidad. Yangqing Jia

creó el proyecto durante su doctorado en la Universidad de California Berkeley. Este modelo

está escrito en C++ y CUDA (Interfaz de Programación de Aplicaciones creado por Nvidia) y

puede ser usado mediante Python y C++.

La velocidad hace que Caffe sea perfecto para experimentos de investigación y despliegue en la

industria. Caffe puede procesar más de 60 millones de imágenes por día con una sola GPU

NVIDIA K40. Eso es 1 ms / imagen para deducir y 4 ms / imagen para aprendizaje y las

versiones más recientes de la biblioteca y el hardware son aún más rápidos (Jia & Shelhamer,

2014).

pág. 25

1.4.1 Evolución de Caffe

Primavera y verano de 2013: El grupo del profesor Trevor Darrell en UC Berkeley

publica su documento, código y modelos de DeCAF, demostrando que las funciones de

aprendizaje profundo ofrecen mejoras generales para el reconocimiento visual y se

pueden ajustar para varias tareas específicas. Por primera vez, la comunidad de

desarrollo tiene un modelo público de aprendizaje profundo que puede realizar usted

mismo.

Diciembre de 2013: Caffe v0, un marco basado en C ++ / CUDA para el aprendizaje

profundo con un conjunto de herramientas completo para definir, capacitar y desplegar

redes profundas, se lanza en NIPS. Caffe tiene un propósito más general que DeCAF, por

no mencionar más rápido.

Primavera de 2014: Caffe incorpora nuevos solucionadores, gráficos de red generales

(entrada múltiple, ruta de acceso y salida) y compartir el peso para abarcar una amplia

gama de modelos potenciales.

Junio de 2014: CVPR 2014 trae una "ola" de gradientes. La R-CNN de Ross Girshick

(entonces UC Berkeley) logra una precisión de vanguardia para la detección de objetos,

proporcionando una prueba de que el ajuste fino puede mejorar las tareas visuales más

allá de la clasificación de objetos. El esfuerzo para abordar todas las tareas de

reconocimiento a través del aprendizaje profundo está ahora en marcha.

Septiembre de 2014: se crea el Caffe Model Zoo para permitir el intercambio de modelos

entre grupos de investigación y la industria. Se lleva a cabo ILSVRC 14, con ganadores

incluyendo VGG (desarrollado en Caffe) y GoogLeNet (reproducido en Caffe poco

después). El primer tutorial público de Caffe también se lleva a cabo, en la Conferencia

Europea sobre Visión por Computador (ECCV). Finalmente, una versión de

actualización coordinada de Caffe con NVIDIA permite la aceleración en las GPU a través

de cuDNN v1. (Dipert & Bier, 2015).

http://www.eecs.berkeley.edu/~trevor/

http://www.eecs.berkeley.edu/~trevor/

pág. 26

1.5 ImageNet

Es un conjunto de datos de más de 15 millones de imágenes de alta resolución etiquetadas que

pertenecen aproximadamente a 22,000 categorías. Las imágenes se recolectaron de la web y

fueron etiquetadas por personas utilizando la herramienta de Amazon Mechanical Turk

(MTurk). (Krizhevsky, Sutskever, & Hinton, 2014).

ILSVRC (Large Scale Visual Recognition Challenge) desafío de reconocimiento visual a gran

escala de ImageNet, evalúa los algoritmos para la detección de objetos y la clasificación de

imágenes a gran escala. Una motivación de alto nivel es permitir a los investigadores comparar

el progreso en la detección en una variedad más amplia de objetos, aprovechando el costoso

esfuerzo de etiquetado. Otra motivación es medir el progreso de la visión por computadora para

la indexación de imágenes a gran escala para la recuperación y anotación. (Russakovsky, y

otros, 2015). ILSVRC emplea un subconjunto de ImageNet con aproximadamente 1000

imágenes en cada 1000 categorías, donde en total hay 1.2 millones de imágenes de

entrenamiento, 50.000 imágenes de validación y 150.000 imágenes de prueba.

1.6 GoogleNet

GoogleNet creado por Yan Lecun, es una red neuronal convolucional de 22 capas donde tiene

módulos de inicio que realizan diferentes convoluciones en varios tamaños y recogen

información para ser entregada a la siguiente capa. Esta red esta entrenada con la gran base de

datos de millones de imágenes de ImageNet mostrada al mundo en el ILSVRC del año 2014, en

donde logro una tasa de error top-5 de 6.67%, ya que este margen de error es muy similar al

error humano según los aspectos enfocados en el objetivo principal del ILSVRC (clasificación y

detección de objetos y escenas).

1.6.1 Arquitectura red GoogleNet

Arquitectura de red GoogleNet utilizando Analizador CNN Netscope (Una herramienta web

para visualizar y analizar arquitecturas de redes neuronales convolucionales). Ver Anexo 1.

pág. 27

1.6.1.1 Capa Convolucional

Lo que distingue a las redes neuronales convolucionales de cualquier otra red neuronal es

utilizan un operación llamada convolución en alguna de sus capas; en lugar de utilizar la

multiplicación de matrices que se aplica generalmente. La operación de convolución recibe

como entrada o input la imagen y luego aplica sobre ella un filtro o kernel que devuelve

un mapa de las características de la imagen original, de esta forma se logra reducir el tamaño

de los parámetros. (López, 2014).

1.6.1.2 Capa de reducción o pooling

La capa de reducción o pooling se coloca generalmente después de la capa convolucional. Su

utilidad principal radica en la reducción de las dimensiones espaciales (ancho x alto) del

volumen de entrada para la siguiente capa convolucional. No afecta a la dimensión de

profundidad del volumen. La operación realizada por esta capa también se llama reducción de

muestreo, ya que la reducción de tamaño conduce también a la pérdida de información. (López

Briega, 2016).

1.6.1.3 Capa SoftMax

SoftMax a menudo se encuentra en la capa final que actúa básicamente como un normalizador

y produce un vector discreto de distribución de probabilidad, ya que la salida de la CNN que se

quiere una probabilidad de que una imagen se corresponda con una clase en particular. La

salida de las capas y de la red neuronal se procesa utilizando una función de activación, que es

un nodo que se agrega a las capas de ocultación y a la capa de salida. (Bendemra, 2018).

1.6.1.4 Capas de otras clases

Al final de las capas convolucional y de pooling, las redes utilizan generalmente capas

completamente conectados en la que cada pixel se considera como una neurona separada al

igual que en una red neuronal regular. Esta última capa clasificadora tendrá tantas neuronas

como el número de clases que se debe predecir.

La idea de la capa de inicio es cubrir un área más grande, pero también mantener una buena

resolución para una pequeña información sobre las imágenes. Por lo tanto, la idea es convertir

https://es.wikipedia.org/wiki/Redes_neuronales_convolucionales

https://es.wikipedia.org/wiki/Red_neuronal_artificial

https://es.wikipedia.org/wiki/Convoluci%C3%B3n

https://es.wikipedia.org/wiki/Convoluci%C3%B3n

pág. 28

en paralelo diferentes tamaños, desde los detalles más precisos (1x1) a uno más grande (5x5).

La forma más sencilla de mejorar el rendimiento en el aprendizaje profundo es usar más capas

y más datos, GoogleNet utiliza 9 módulos de inicio.

Figura 4. Proceso de convolucion por capa

pág. 29

2. Metodología

La metodología usada para el proyecto se llevó a cabo en las siguientes fases

2.1 Adquisición

Se determinó el tipo de hardware a utilizar para la obtención y el procesamiento de imágenes,

teniendo en cuenta sus características técnicas, capacidades de procesamiento, entre otros.

2.1.1 Raspberry Pi Model B+

El Raspberry Pi 3 Modelo B + es el último producto de la gama Raspberry Pi 3, con un

procesador de cuatro núcleos de 64 bits que funciona a 1.4 GHz, doble banda de 2.4 GHz y LAN

inalámbrica de 5 GHz, Bluetooth 4.2 / BLE, Ethernet más rápida y capacidad PoE a través de un

PoE HAT.

pág. 30

Figura 5. Raspberry Pi Model B+

2.1.2 Raspberry Pi Cámara V2

Raspberry Pi Cámara V2 tiene un sensor Sony IMX219 de 8 megapíxeles. Admite los modos de

video 1080p30, 720p60 y VGA90, así como también captura. Se conecta mediante un cable

plano de 15 cm al puerto CSI en la Raspberry Pi.

Figura 6. Raspberry Pi Cámara V2

pág. 31

2.2 Diseño

Es una librería software, fuente abierta de visión artificial y aprendizaje automático, provee una

infraestructura para aplicaciones de visión artificial. La librería tiene más de 2500 algoritmos,

que incluye algoritmos de machine learning (máquinas de aprendizaje) y de visión artificial

para usar.

Estos algoritmos permiten identificar objetos, rostros, clasificar acciones humanas en vídeo,

hacer tracking de movimientos de objetos, extraer modelos 3D, encontrar imágenes similares,

eliminar ojos rojos, seguir el movimiento de los ojos, reconocer escenarios, entre otros.

2.2.1 Ventana Deslizante

Una ventana deslizante permite a la red neuronal operar sobre múltiples puntos de datos, por

lo que es un mejor predictor de futuras series cronológicas y en su comportamiento.

Figura 7. Ventana Deslizante

2.2.2 Pirámides Gaussianas

Una pirámide de imágenes es una colección de imágenes, todo surge de una sola imagen

original, que se muestrea hasta que se alcanza un cierto punto de parada deseado.

pág. 32

Esta pirámide es un conjunto de capas en la que la más alta es la capa, más pequeño es el

tamaño.

Figura 8. Pirámide Gaussianas

Cada capa se numera de abajo hacia arriba, por lo que la capa (I + 1) (indicada como G_ {i + 1}

es más pequeña que la capa i (G_ {1}. (Atriano Perez, 2012).

pág. 33

2.2.3 Diagrama de flujograma del algoritmo

Figura 9. Diagrama de bloques de funcionamiento de Prototipo

pág. 34

2.2.4 Funcionamiento Diagrama de flujograma del algoritmo

Inicio

Este bloque se encarga de inicializar las variables globales y funciones necesarias para

ejecutar

Captura de la imagen.

Se realiza la toma de la imagen proporcionando la posición en la que se encuentra.

Algoritmo de reconocimiento por medio de ventanas deslizantes.

Por medio del algoritmo se extrae regiones de la imagen, en este caso se consideran

ventanas deslizantes en el cual escanea detalladamente la imagen y valida que elemento

es teniendo en cuenta tamaño, iluminación, etc.

Finalización del recorrido de la imagen

Continuando con el algoritmo de reconocimiento avanza por las distintas ventanas

hasta finalizar y clasifica el elemento depende del objeto de interés.

Reconocimiento de objeto en el entorno.

Al realizar el reconocimiento del objeto guarda esta información en un vector el cual se

encarga de validar detección de colores, segmentación del objeto y posición y forma del

mismo.

Probabilidad de reconocimiento.

El vector de características compara la información que tiene del objeto y si encuentra

uno con un porcentaje elevado de semejanza determina que objeto es.

Sintetizador de voz

La lista de características que incluye los resultados del análisis de las imágenes,

es procesado por el sintetizador que emite el audio de lo encontrado en el vector

para ser escuchado por el usuario.

Fin

Fin del ciclo del algoritmo.

pág. 35

2.3 Implementación

2.3.1 Inicio

Una vez instalado el software OpenCV en el sistema operativo de la Raspberry Pi (RASPBIAN

basado en Debian GNU/Linux) con cada una de sus librerías necesarias, se toma la fotografía al

entorno o el escenario encontrado con la Raspberry Pi Cámara V2.

Figura 10. Captura de imagen ejemplo.

2.3.2 Proceso de Reconocimiento

Se evidencia el proceso de reconocimiento del modelo ya entrenado donde analiza e identifica

los principales rasgos de la imagen tomada, realiza una predicción con el modelo matemático

de GoogleNet, basado en características adquiridas por la red neuronal.

Figura 11. Proceso de Reconocimiento Oso de peluche

pág. 36

Figura 12. Proceso de Reconocimiento Balón de futbol

2.3.3 Proceso de Reconocimiento con Ventana Deslizante

Para efectos del prototipo mencionado objetivo base del proyecto la ventana deslizante

trae información más precisa y detallada de la imagen principal como lo muestra el

siguiente ejemplo con el modelo y proceso de reconocimiento funcional

La imagen ejemplo de la prueba es la siguiente figura:

Figura 13. Cocina Prueba

pág. 37

Después de tomar la captura la imagen es procesada por las ventanas de varios tamaños

predefinidas en el algoritmo desarrollado indicando su porcentaje de semejanza

encontrado, como se evidencia de la siguiente manera

Figura 14. Cocina Prueba ventana deslizante tipo 1

Figura 15. Cocina Prueba ventana deslizante tipo 2

pág. 38

2.3.4 Proceso de Reconocimiento con pirámides Gaussianas

Después de tomar la captura la imagen es procesada por las ventanas de varios tamaños

predefinidas en el algoritmo desarrollado utilizando el principio de pirámides Gaussianas

Figura 16. Sala prueba pirámides Gaussianas tipo 1



pág. 39

2.4 Presentación (sintetizador de voz)

Para la parte de presentación que en otras palabras en el sintetizador de voz de los objetos

reconocidos en el entorno y procesados por el algoritmo se genera una lista de estos objetos

que el algoritmo va alimentando hacia el final de este mismo para después ser procesado por

los comandos y las librerías de audio:

Un ejemplo de las listas es esta:

['screen', 'loudspeaker', 'binder', 'nematode', 'home theater', 'spotlight', 'switch']

pág. 40

3. Resultados

3.1 Prueba 1.

Se evidencia la figura 19 que es la foto original, y se exponen los resultados encontrados en la

siguiente tabla.

Figura 19. Sala prueba 1.

RESULTADOS CANTIDAD

ENCONTRADA TRADUCCION

Band Aid 1 TIRITA

bannister 3 BARANDILLA

binder 5 CARPETA

bulletproof vest 1 CHALECO ANTIBALAS

car mirror 2 ESPEJO DE COCHE

cleaver 2 CUCHILLA

cowboy boot 1 BOTA DE VAQUERO

crossword puzzle 2 CRUCIGRAMA

dalmatian 1 DALMATA

digital clock 1 RELOJ DIGITAL

dishwasher 2 LAVAVAJILLAS

dugong 3 DUGONGO

envelope 7 SOBRE

fire screen 2 PANTALLA DE FUEGO

flat-coated retriever 1 perro perdiguero de capa plana

golf ball 1 BOLA GOLF

pág. 41

grey whale 1 BALLENA GRIS

hourglass 3 RELOJ DE ARENA

jersey 1 SUETER

killer whale 1 BALLENA ASESINA

laptop 9 PORTATIL

Madagascar cat 1 GATO MADAGASCAR

mailbag 3 SACO DE CORREOS

microwave 9 MICROONDAS

monitor 1 PANTALLA

muzzle 1 BOZAL

nematode 25 NEMATODO

notebook 5 CUADERNO

oxygen mask 5 MASCARA OXIGENO

photocopier 1 FOTOCOPIADORA

pick 2 RECOGER

revolver 1 REVOLVER

screen 61 pantalla

sewing machine 1 MAQUINA DE COSER

studio couch 3 SOFA DE ESTUDIO

switch 2 INTERRUPTOR

television 1 television

upright 3 VERTICAL

velvet 8 TERCIOPELO

wallet 2 bitellera

web site 1 PAGINA WEB

window shade 1 PERSIANA

Total general 187

Tabla 1.Tabla de resultados prueba 1.

De la tabla 1, se evidencia un total de 187 encontrados donde en un objeto se tiene

varias cantidades encontradas según la librería de reconocimiento, se toman los

siguientes cálculos sobre los totales de resultados correctos e incorrectos:

V1 = Objetos Reconocidos Correctamente

𝑽𝟏 =𝑅𝑒𝑠𝑢𝑙𝑡𝑎𝑑𝑜𝑠 𝐶𝑜𝑟𝑟𝑒𝑐𝑡𝑜𝑠

𝑇𝑜𝑡𝑎𝑙=

109

187= 0,582887 − − − − > 58.2 %

pág. 42

V2 = Objetos Reconocidos Incorrectamente

𝑽𝟐 =𝑅𝑒𝑠𝑢𝑙𝑡𝑎𝑑𝑜𝑠 𝐼𝑛𝑐𝑜𝑟𝑟𝑒𝑐𝑡𝑜𝑠


78

187= 0,417112 − − − > 41.7 %

De la tabla 1, se evidencia un total de 187 encontrados donde en un objeto se tiene varias

cantidades encontradas según la librería de reconocimiento, ahora la siguiente tabla expone el

total de resultados con su porcentaje más alto de semejanza del reconocimiento dados por el

algoritmo.

OBJETO SEMEJANZA

Band Aid 55.88%

binder 60.12%

digital clock 73.56%

envelope 59.21%

jersey 51.87%

laptop 53.35%

mailbag 51.59%

monitor 68.34%

notebook 69.69%

screen 76.21%

studio couch 64.54%

switch 59.71%

television 51.23%

velvet 62.75%

velvet 60.30%

window shade 78.27%

Tabla 2. Tabla de resultados prueba 1 con

porcentajes

Para el algoritmo se realizó la medida con una

probabilidad de semejanza mayor a 50 %, en

este escenario (prueba 1) se encontraron 16

resultados mayor a esta medida de los cuales 13

resultados son los más aproximados.

Se realizó la siguiente regla de 3 para el

porcentaje de los resultados denominados con

V3 = (Resultados mas aproximados*100) /

Total Resultados

V3 = (13*100) / 16

pág. 43

3.2 Prueba 2.


siguiente tabla.

Figura 20. Baño prueba

RESULTADOS CANTIDAD

ENCONTRADA TRADUCCIÓN

beaker 5 cubeta

binder 4 carpeta

can opener 1 abrelatas

cash machine 1 cajero automatico

computer keyboard 1 teclado computador

digital clock 3 reloj digital

dishwasher 1 lavavajillas

hammerhead 1 cabeza de martillo

home theater 2 teatro en casa

laptop 2 portatil

lighter 1 encendedor

medicine chest 4 botiquin

microwave 1 microonda

modem 4 modem

nail 4 Uña

nematode 3 nematodo

notebook 2 cuaderno

pág. 44

oil filter 2 filtro de aceite

paper towel 1 toalla de papel

pedestal 1 Pedestal

pencil sharpener 1 Sacapuntas

safe 1 Seguro

screen 25 Pantalla

shoji 1 Shoji

shower curtain 1 cortina de la ducha

sliding door 2 puerta corrediza

soap dispenser 2 dispensador de jabon

spotlight 10 Destacar

studio couch 1 sofa estudio

toilet tissue 1 papel de baño

washbasin 2 Lavabo

window shade 6 Persiana

Total general 97

Tabla 3. Tabla de resultados prueba 2


cantidades encontradas según la librería de reconocimiento, se toman los siguientes cálculos

sobre los totales de resultados correctos e incorrectos:




58

97= 0,59793814 − − − − > 59.7 %




39

97= 0,4020618557 − − − > 40.2 %

pág. 45




algoritmo.

OBJETO SEMEJANZA

window shade 51.68%

pedestal 51.87%

home theater 53.34%

spotlight 54.65%

toilet tissue 55.58%

studio couch 66.97%

window shade 69.34%

Screen 70.78%

Screen 72.86%

soap dispenser 73.13%

shower curtain 75.52%

washbasin 77.90%

sliding door 78.79%

medicine chest 80.84%

paper towel 90.02%


con porcentajes

Para el algoritmo se realizó la medida con una

probabilidad de semejanza mayor a 50 %, en

este escenario (prueba 2) se encontraron 15

resultados mayor a esta medida de los cuales 12


Se realizó la siguiente regla de 3 para el

porcentaje de los resultados denominados con

V3 = (Resultados mas aproximados*100) /

Total Resultados

V3 = (12*100) / 15

pág. 46

3.3 Prueba 3.


siguiente tabla.

Figura 21. Living Room prueba 3

RESULTADOS CANTIDAD

ENCONTRADA TRADUCCION

binder 1 carpeta

dishwasher 5 lavavajillas

folding chair 2 silla pegable

home theater 3 teatro en casa

loudspeaker 2 altoparlante

microwave 14 microonda

notebook 1 cuaderno

screen 8 pantalla

shoji 2 shoji

spotlight 2 foco

switch 2 interruptor

Total general 42


pág. 47


cantidades encontradas según la librería de reconocimiento, se toman los siguientes cálculos

sobre los totales de resultados correctos e incorrectos:




21

42= 0,5 − − − − > 50 %




21

42= 0,5 − − − > 50 %




algoritmo.

OBJETO SEMEJANZA

binder 63.54%

dishwasher 51.44%

folding chair 95.70%

home theater 87.88%

loudspeaker 51.39%

microwave 85.13%

microwave 75.62%

screen 62.98%

spotlight 55.68%

switch 64.75%

Tabla 6. Tabla de resultados prueba 3 con porcentajes

pág. 48

Mencionando estos cálculos y resultados de la figura 20, se genera la siguiente lista, que entra

a hacer procesado en el módulo (sintetizador de audio / voz) y emite el audio de la lista de

objetos para posteriormente ser escuchada por la persona que está usando el prototipo.

La lista de esta prueba es:

['screen', 'loudspeaker', 'binder', 'folding chair', 'home theater', 'spotlight', 'switch', 'notebook']

Para el algoritmo se realizó la medida con una probabilidad de semejanza mayor a 50 %, en

este escenario (prueba 3) se encontraron 10 resultados mayor a esta medida de los cuales 6


Se realizó la siguiente regla de 3 para el porcentaje de los resultados denominados con V3

= (Resultados mas aproximados*100) / Total Resultados

V3 = (6*100) / 10

pág. 49

4. Conclusiones y recomendaciones

4.1 Conclusiones

De acuerdo con los objetivos identificados y establecidos cuando se inició el proyecto se puede

concluir lo siguiente:

1. Raspberry Pi 3, es el sistema embebido ideal para esta clase de proyectos económicos

gracias a que sus especificaciones técnicas de verdad cumplen con algunas de las

necesidades presentadas ya sea por presupuesto o requerimientos que pueden

considerarse como rigurosos al tener que hacer uso de cámaras y transferencia de

datos e información por video a una velocidad constante y estable sin retardos por lo

que Raspberry Pi 3 cumple con las expectativas esperadas.

2. Los porcentajes entregados por el algoritmo en el reconocimiento de objetos del

entorno tienden a generar una redundancia de información e imágenes entre los

escenarios de pruebas, ya que los ambientes y/o escenarios no eran controlados así

que el reconocimiento tiende a variar mucho de acuerdo a los objetos del entorno pero

esa desviación no era tan alejada a la realidad.

3. El prototipo depende de su cabecera (en este caso la Cámara Py) que toma la imagen

inicial o ejemplo, en los resultados con imágenes y escenarios más claros y con

iluminación, el indicador de reconocimiento correctos da mejores expectativas de

semejanzas de los objetos, a comparación de este mismo indicador en escenarios no

tan claro y con poca iluminación, aquí también entra a jugar el papel del enfoque y

megapíxeles de la cámara Py ya que existen mejores cámaras con mejores

características y especificaciones técnicas para brindar mejores resultados.

4. Nuestro proyecto se desarrolló con arquitectura y tecnología conocida y perfeccionada

a lo largo de nuestra carrera formativa en la universidad, junto a la experiencia en

nuestro trabajado y mucha dedicación, el resultado de la investigación y de múltiples

pruebas de funcionamiento tratando que los objetivos se cumplieran según lo

planteado.

pág. 50

4.2 Recomendaciones

1. Se recomienda continuar con el proyecto reemplazando los dispositivos como la cámara

por una que tenga una mayor resolución o disponga de otras tecnologías adicionales,

como las cámaras IP actualizando físicamente las posibilidades de identificación de

objetos en el entorno con mayor resolución.

2. Se recomienda plantear un nuevo dispositivo hardware con mayor procesamiento para

reducir la lentitud y optimizar los tiempos de ejecución.

3. Es recomendable considerar otras librerías de procesamiento de imágenes como el

utilizado OpenCV ya que el dar un enfoque distinto o similar significa enriquecer el uso

de las tecnologías y abrir las puertas a muchas posibilidades y óptimos resultados.

Actualmente otras librerías al utilizar seria el modelo Caffe Model Zoo.

pág. 51

5. Bibliografía

[1] Altuna, M. (5 de Febrero de 2012). Aplicación práctica de la visión artificial en el control de

procesos industriales. Obtenido de CENTRE INTEGRAL DE FORMACIO PROFESSIONAL DE LA

GARROTXA.

[2] Angie P Rosado, Carlos E. Carrascal, Diseño de un dispositivo electrónico para la detección

de obstáculos en personas con discapacidad visual, Ocaña Norte de Santander, 2012.

[3] Araujo Santos, L. (2018). GoogleNet. En Inteligencia Artificial. Gitbooks.

[4] Atriano Perez, N. (2012). Piramides Y Wavelets. En Piramides Y Wavelets (págs. 10-14).

[5] Bejar, I. (14 de Febrero de 2013). Introduccion a la Inteligencia Artificial. Obtenido de

Universidad Politecnica de Catalunya.

[6] Bocanegra Rivera, C. F. (2013). BOLETIN JURIDICO TRIMESTRAL NO. 08. IBAGUE.

[7] Cardenes Almeida, R. (2008). Inteligencia Artificial.

[8] Clark, K. (2018). Bluebox wIFE. Estantia House.

[9] Cognex. (2016). INTRODUCCIÓN A LA VISION ARTIFICIAL. Natick, Massachusetts.

[10] Cook , K., Drayer, A., & Imbert , A. (2004). Plug and Play Technology.

[11] Dipert, B., & Bier, J. (2015). The Caffe Deep Learning Framework: An Interview with the

Core Developers. California: Basler.

[12] Gutierrez Santiago, A., & Cancela Carral, J. M. (2006). DE LA “MINUSVALÍA” VISUAL A LA

“DISCAPACIDAD” VISUAL. Revista de investigación en educación, 33-50.

pág. 52

[13] Jia, Y., & Shelhamer, E. (2014). Caffe: Convolutional Architecture for Fast Feature

Embedding. arXiv preprint.

[14] Krizhevsky, A., Sutskever, I., & Hinton, G. (2014). ImageNet Classification with Deep

Convolutional. Toronto.

[15] Loncomilla, P. (2016). Deep learning: Redes convolucionales. Puebla.

[16] López Briega, R. (02 de Agosto de 2016). Redes neuronales convolucionales con

TensorFlow. Obtenido de GITHUB.IO.

[17] López, R. (07 de Mayo de 2014). ¿Qué es y cómo funciona “Deep Learning”? . Obtenido de

WordPress.

[18] Marder, E., & Goaillard, J.-M. (2006). Nature Reviews Neuroscience volumen 7. En

[19] Matich, D. J. (2001). Redes Neuronales: Conceptos Básicos. Rosario.

[20] Nature Reviews Neuroscience volumen 7 (págs. 563-574). Massachusetts.

[21] Nielsen, M. (2015). Neural Networks and Deep Learning. Determination Press.

[22] OMS. (2001). Clasificación Internacional del Funcionamiento de la Discapacidad y de la

Salud. Santander: AMICA.

[23] Pino Diez, R., De la Fuente García, D., Parreño Fernándes, J., Priore, P. (2004). Aplicación

de redes neuronales artificiales al cálculo de previsiones a corto plazo en el mercado eléctrico

español. España

[24] Ruiz, H. (2018). ¿Qué es la visión artificial y cómo puede mejorar tu aplicación?

Barcelona: Infaimon.

pág. 53

[25] Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., . . . Karpathy, A. (2015).

ImageNet Large Scale Visual Recognition Challenge. Florida: IJCV.

[26] Sadato, N., Pascual-Leone, A., & Grafman, J. (1998). Neural networks for Braille reading by

the blind. Oxford.

[27] Suarez Escudero, J. C. (2011). Discapacidad visual y ceguera en el adulto. Medicina U.P.B.,

170-180.

[28] Wright, T. (2018). Guide Dogs’ strategy is evolving. FORWARD, 5-6.

[29] Zimmermann Casado, M. (03 de Noviembre de 2014). Sistema de recolección de objetos

mediante visión artificial y planificación automática. Obtenido de Universidad Carlos III de

Madrid.

pág. 54

6. Anexo 1.

pág. 55

pág. 56