Análisis de imágenes aéreas como apoyo para el seguimiento ...
Clasificación de imágenes aéreas en la agricultura de ...
Transcript of Clasificación de imágenes aéreas en la agricultura de ...
1
, junio, 2018
Departamento de
Ciencias de la
Computación
Clasificación de imágenes aéreas en la agricultura de precisión
empleando redes neuronales.
Raybel Hernández Regalado
Ing. Joisel Martínez Gómez
MSc. Idileisy Torres Rodríguez
Este documento es Propiedad Patrimonial de la Universidad Central “Marta Abreu” de Las Villas, y
se encuentra depositado en los fondos de la Biblioteca Universitaria “Chiqui Gómez Lubian”
subordinada a la Dirección de Información Científico Técnica de la mencionada casa de altos
estudios.
Se autoriza su utilización bajo la licencia siguiente:
Atribución- No Comercial- Compartir Igual
Para cualquier información contacte con:
Dirección de Información Científico Técnica. Universidad Central “Marta Abreu” de Las Villas.
Carretera a Camajuaní. Km 5½. Santa Clara. Villa Clara. Cuba. CP. 54 830
Teléfonos.: +53 01 42281503-1419
A mis padres
AGRADECIMIENTOS
A mis padres, por haberme inculcado la dedicación suficiente para la realización de este
trabajo.
A mis abuelos, por haberme apoyado en cada una de las vicisitudes que me ha planteado la
vida.
A mis tías, por siempre estar ahí cada vez que las necesito.
A mi hermano, por quien trato cada día de ser una mejor persona.
A Cary, por ser una persona tan importante en mi vida.
A Augusto, una persona que me ha enseñado tanto y que siempre ha confiado en mí.
A Roberto, por su ayuda incondicional, incluso en los momentos en que no tenía tiempo ni
para él.
A Juan Manuel, por las constantes molestias ocasionadas.
A Joisel, por el apoyo brindado.
A Idileisy por las molestias ocasionadas.
A Yohandra y Reinier, por haberme ayudado en un momento difícil de mi vida.
A mis suegros, por la cálida acogida que me han ofrecido en el seno de su familia.
Y, por último, y no menos importante, a Ari, sin cuyo apoyo no habría sido posible la
realización de este trabajo.
RESUMEN
La fotografía aérea es un punto de apoyo para la agricultura de precisión. Sin embargo, la
clasificación de estas imágenes puede ser un proceso complicado y computacionalmente
costoso. En este trabajo proponemos redes neuronales artificiales como una alternativa a los
métodos de clasificación de imágenes.
Las redes neuronales son clasificadores no paramétricos, es decir, no requieren que los
datos de entrada sigan ninguna distribución estadística. Debido a su alto rendimiento en
problemas de clasificación, evaluamos 3 arquitectura de red neuronal para la clasificación
de imágenes aéreas en agricultura de precisión, enfocada en el proceso de clasificación de
la caña de azúcar. Las arquitecturas evaluadas fueron: perceptrón simple, perceptrón
multicapa y mapas auto organizados.
El trabajo actual se enfoca en dos problemas específicos: (1) para detectar la presencia de
caña de azúcar y (2) para clasificar la caña en dos etapas de maduración diferentes.
Según los resultados obtenidos las redes neuronales de perceptrón multicapa muestran un
mayor rendimiento frente a las redes de tipo perceptrón simple y mapas auto organizados.
Palabras clave: imágenes aéreas, agricultura de precisión, redes neuronales.
ABSTRACT
Aerial photography is a point of support for precision agriculture. However, the
classification of these images can be a complicated process and computationally expensive.
In this work we propose artificial neural networks as an alternative to image classification
methods.
Neural networks are nonparametric classifiers, that is, they do not require that the input data
follow any statistical distribution. Due to its high performance in classification problems,
we evaluate 3 neural network architecture for the classification of aerial images in
precision agriculture, focused on the sugarcane classification process. The architectures
evaluated were: simple perceptron, multilayer perceptron and self-organized maps.
Current work is focused in two specific problems:. (1) to detect the presence of sugarcane
and (2) to classify the cane in two different maturation stages.
According to The obtained results the multilayer perceptron neural networks show a greater
performance to in front of the networks of type simple perceptron and Self-Organized
Maps.
Keywords: aerial images, precision agriculture, neural networks.
Tabla de contenido INTRODUCCIÓN .............................................................................................................................. 1
CAPÍTULO 1: FUNDAMENTACIÓN TEÓRICA DE LA CLASIFICACIÓN DE IMÁGENES
AÉREAS EN LA AGRICULTURA DE PRECISIÓN CON REDES NEURONALES..................... 7
1.1 Imágenes digitales ..................................................................................................................... 7
1.1.2 Representación ................................................................................................................... 7
1.1.3 Resolución espacial, resolución espectral y profundidad de color ..................................... 7
1.2 Modelos de color ..................................................................................................................... 10
1.3 Propiedades de la imagen ........................................................................................................ 11
1.4 Imagen aérea ........................................................................................................................... 13
1.4.1 Imágenes aéreas en la agricultura de precisión ................................................................ 14
1.5 Proceso de reconocimiento y clasificación de imágenes ......................................................... 14
1.5.1 Mejoramiento de la imagen .............................................................................................. 14
1.5.2 Representación y descripción ........................................................................................... 15
1.5.3 Reconocimiento de formas ............................................................................................... 15
1.6 Clasificadores de imágenes ..................................................................................................... 15
1.6.1 Métodos de clasificación según la unidad espacial ........................................................ 16
1.6.2 Métodos de clasificación no paramétricos: ...................................................................... 20
1.7 Redes neuronales .................................................................................................................... 21
1.7.1 Elementos y características principales de las RNA .......................................................... 24
1.7.2 Arquitectura de las RNAs .................................................................................................. 27
1.7.3 Aprendizaje de la red ........................................................................................................ 29
1.7.4 Evaluación del aprendizaje de la red ................................................................................ 31
1.8 Redes neuronales en la clasificación de imágenes aéreas en la agricultura de precisión ........ 32
1.8.1 Red neuronal de tipo perceptrón simple .......................................................................... 32
1.8.2 Red neuronal de tipo perceptrón multicapa ..................................................................... 34
1.8.3 Red neuronal de Kohonen ................................................................................................ 35
Conclusiones del capítulo: ............................................................................................................ 37
CAPÍTULO 2: MATERIALES Y MÉTODOS................................................................................. 38
2.1 Antecedentes de la clasificación de imágenes aéreas con redes neuronales ........................... 38
2.1.1 Clasificación de imágenes aéreas en la agricultura de precisión ...................................... 38
2.1.2 Clasificación de imágenes aéreas en la agricultura de precisión empleando redes
neuronales artificiales ................................................................................................................ 41
2.2 Descripción de los materiales y métodos empleados .............................................................. 42
2.2.1 Dispositivo de cálculo ...................................................................................................... 42
2.2.2 Base de conocimiento ....................................................................................................... 43
2.2.3 Entorno de Desarrollo Interactivo (IDE) .......................................................................... 44
2.2.4 Algoritmos empleados ...................................................................................................... 45
2.3 Redes neuronales para la clasificación de imágenes aéreas en la agricultura de precisión . 51
2.3.1 Red neuronal de tipo perceptrón simple .................................................................... 53
2.3.2 Red neuronal de tipo perceptrón multicapa ...................................................................... 54
2.3.3 Red neuronal de Kohonen o Mapa Auto-Organizado ...................................................... 55
Conclusiones del capítulo.............................................................................................................. 56
CAPÍTULO 3: ANÁLISIS DE LOS RESULTADOS OBTENIDOS .............................................. 57
3.1 Detección de caña en imágenes aéreas .................................................................................... 57
3.2 Clasificación de los estadios de la caña................................................................................... 60
Conclusiones del capítulo: ............................................................................................................ 63
CONCLUSIONES ............................................................................................................................ 64
RECOMENDACIONES ................................................................................................................... 65
BIBLIOGRAFÍA ............................................................................................................................... 66
ANEXOS........................................................................................................................................... 70
Anexo 1: ........................................................................................................................................ 70
Anexo 2: ........................................................................................................................................ 71
Anexo 3: ........................................................................................................................................ 71
Anexo 4: ........................................................................................................................................ 71
Anexo 5: ........................................................................................................................................ 72
Anexo 6: ........................................................................................................................................ 72
Tabla de imágenes
Imagen 1. Imagen representada en diferentes resoluciones espaciales ............................................... 8
Imagen 2. Mejoramiento de una imagen aérea .................................................................................. 15
Imagen 3. Clasificadores de contexto. .............................................................................................. 18
Imagen 4. Estructura de una red neuronal para la clasificación de imágenes ................................... 23
Imagen 5. Mapa auto organizado ...................................................................................................... 36
Imagen 6. Imagen con bordes detectados e imagen complementaria. .............................................. 47
Imagen 7. Patrón binario local. ......................................................................................................... 50
Gráfico 1. Media aritmética del porcentaje de error de clasificación en la detección de caña .......... 60
Gráfico 2. Media aritmética del porcentaje de error de clasificación de los estadios de la caña ...... 62
1
INTRODUCCIÓN Uno de los acontecimientos más importantes en la historia humana ha sido el cambio de
una economía sustentada en la caza y la recolección de plantas a una basada en la
agricultura. Diversos estudios sugieren que este cambio se efectuó paulatinamente en por lo
menos seis regiones del mundo, entre los 11.000 y 5.000 antes de nuestra era en áreas
tropicales y subtropicales con alta biodiversidad (Zarger et al., 2008).
Hoy en día, debido al incremento de la población mundial y con la consiguiente
demanda de alimentos que ello supone, la agricultura ha tenido que adaptarse a estas
nuevas exigencias. La introducción de la mecanización y los agroquímicos en la agricultura
han sido uno de los mayores logros del siglo XX.
Si antes se necesitaba de un granjero para alimentar de dos a cinco personas, hoy un
agricultor con tecnología mecánica, agroquímicos y nuevas variedades obtenidas con
biotecnología, es capaz de alimentar hasta a 130 personas. Esto por supuesto, requiere de
un gran consumo energético, fundamentalmente combustibles fósiles.
La agricultura moderna depende enormemente de la tecnología y las ciencias físicas y
biológicas. La irrigación, el drenaje, la conservación y la sanidad, que son vitales para una
agricultura exitosa, exigen el conocimiento especializado de ingenieros agrónomos. La
química agrícola, en cambio, trata con la aplicación de fertilizantes, insecticidas y
fungicidas, la reparación de suelos, el análisis de productos agrícolas, etc. (Zarger et al.,
2008).
A lo largo de los últimos años ha aumentado el interés y la necesidad de disponer de una
información de usos y coberturas del territorio, fiable y actualizada, siendo numerosos los
proyectos de carácter local, nacional e internacional cuyo objetivo es la creación y
actualización de bases de datos de usos y ocupación del suelo. Los procedimientos
metodológicos para llevar a cabo estas tareas requieren un alto grado de intervención
humana, ya que están basados casi íntegramente en la interpretación de imágenes o su
comparación con otras imágenes u otra base de datos. Los recientes avances en la calidad
2
de los sensores, tanto aerotransportados como espaciales, y en su cantidad, han supuesto un
incremento significativo en la disponibilidad de imágenes de alta resolución (Recio, 2010).
El empleo de la teledetección, cada vez más extendido para el análisis y gestión de los
recursos naturales, se encuentra condicionado por las limitaciones en cuanto a resolución
espacial, espectral y temporal de las imágenes disponibles. La llegada al mundo civil de los
vehículos aéreos no tripulados, conocidos por las siglas UAV (Unmanned Aerial Vehicle) o
RPAS (Remotely Piloted Aircraft System), junto con los avances en el desarrollo de micro
sensores, posibilita un nuevo concepto de Teledetección de Alta Resolución donde se
pueden superar ciertas limitaciones en los tres niveles de resolución (espacial, espectral y
temporal), siendo además una solución económicamente viable en superficies de cierto
tamaño. Su empleo está determinado por las necesidades de ciertos sectores. Son
ampliamente utilizados en investigaciones sobre arqueología, ecosistemas, monitoreo de
flora y fauna, estudios climatológicos, estudios urbanos e impacto medioambiental. Tiene
otros usos, tanto en el campo civil como en el militar, por ejemplo, la discriminación de los
suelos y otros estudios agronómicos.
La agricultura de precisión es una tecnología de importante ayuda para el trabajo
agrícola. Se basa en el análisis de la variabilidad entre parcelas de factores abióticos (suelo,
drenajes, estrés hídrico) y bióticos (malas hierbas, plagas, hongos, cosecha) existentes en
los campos de cultivo. Para ello se emplean, entre otras técnicas, fotos aéreas, satelitales y
digitalizadas, permitiendo observar los cultivos durante el desarrollo del mismo,
identificando y ubicando al unísono, aquellos ambientes o sectores con problemas que
requieran una rápida atención, ya que su objetivo es diferenciar subparcelas o zonas de
manejo para la aplicación localizada variable. Los resultados de la implementación de estas
técnicas permiten relacionar aspectos del cultivo y/o del suelo con cuestiones de gestión, no
solo teniendo en cuenta el ajuste de las dosis o mezclas de fertilizantes, sino también todos
los aspectos agronómicos que pueden tener, solos o combinados, repercusión en el
resultado económico de los cultivos. Con esta tecnología se puede minimizar el impacto
ambiental de la agricultura, reduciendo las cantidades de agroquímicos aplicadas sin que
esto signifique reducir la producción, llegando a una agricultura más eficiente, con menores
costos de producción (García and Flego, 2009).
3
La clasificación de imágenes es un procedimiento utilizado en cartografía, astronomía,
diagnósticos médicos, entre otros. Este procedimiento, se basa en la extracción de ciertas
características comunes en una categoría de imágenes, para su posterior clasificación en
una de las distintas clases posibles.
El proceso de extracción de características estará orientado a la manipulación de
imágenes digitales. Hay características que no son percibidas a simple vista, pero que están
implícitamente dentro de las imágenes con las que se trabajan, para detectarlas se
emplearán técnicas de extracción de rasgos, que extraen dicha información.
Las tareas de investigación desarrolladas en torno al estudio de redes neuronales
artificiales, o simplemente redes neuronales, están determinadas a modelar la forma de
procesar la información por sistemas nerviosos biológicos, especialmente, por el cerebro
humano.
El cerebro humano funciona de forma totalmente diferente a un medio de cómputo
digital convencional. El cerebro funciona con un sistema altamente complejo, no lineal y
paralelo, motivado principalmente por actividad eléctrica y bioquímica. El mismo es capaz
de realizar varias tareas de forma simultánea (Lizarazo, Mesa and Cuitiva, 2005).
Las redes neuronales proporcionan un método alternativo de clasificación de imágenes.
Una red neuronal está construida por un conjunto de unidades sencillas de procesamiento
llamadas neuronas. Se caracteriza por adquirir el conocimiento a través de la experiencia;
demostrar flexibilidad de adaptación frente a las variaciones del entorno; exponer una
inmensa plasticidad, evidente en su capacidad para responder correctamente frente a un
estímulo nunca antes visto; poseer un alto nivel de tolerancia a fallos; y lograr una alta tasa
de computabilidad basada en su masivo paralelismo. Debido a las propiedades antes
mencionadas, las neuroredes se han convertido en una herramienta de gran contribución
para obtener soluciones de aquellos problemas de los que se desconoce a priori el algoritmo
para su resolución (Mihaich, 2014).
4
Áreas como el reconocimiento de patrones plantean situaciones de estas características.
En particular, la clasificación de imágenes digitales, basada en procedimientos que
incorporen redes neuronales artificiales, es el objetivo de estudio del presente trabajo.
Actualmente se conocen numerosos métodos para la categorización de imágenes con un
excelente rendimiento computacional, pero estos se encuentran sujetos a precondiciones
respecto a los datos de entrada. Contrariamente, las redes neuronales son descritas como no
paramétricas, es decir, no dependen de una distribución estadística de la información de
entrada. Durante la fase de entrenamiento, la red asimila las regularidades presentes en los
datos incorporados y construye reglas que se pueden extender a los datos desconocidos.
Numerosos autores se han dedicado a categorizar imágenes aéreas empleando redes
neuronales. Recio (2010) propone varios clasificadores orientados a la tarea de actualizar
automáticamente una base de datos de usos de suelo. Para ello emplea redes neuronales y
árboles de decisión. Hernández (2014) emplea redes neuronales para clasificar imágenes
aéreas tomadas por un quadrotor.
Las imágenes aéreas son cada vez más populares en nuestros días. Por esta razón el
GARP (Grupo de Automatización, Robótica y Percepción) de la Universidad Central
“Marta Abreu” de las Villas (UCLV) ha realizado vuelos de reconocimiento sobre
superficies cultivadas con caña de azúcar en los que se han obtenido varias imágenes. Sin
embargo, limitarse únicamente a obtener imágenes no es suficiente mientras exista la
necesidad de realizar clasificaciones de diferentes elementos que componen a la propia
imagen, para así poder diferenciar los objetos de interés de la información poco útil. Esta
necesidad hizo posible el surgimiento de la presente tesis como respuesta a la situación
problémica descrita y su presencia en el sector agropecuario, contexto que no debe
mantenerse alejado de la era de la informatización y el uso de las tecnologías como medio
muy efectivo para la solución de problemas pues, específicamente en este sector tan
importante, contribuye a evitar afectaciones tanto en los cultivos como en la economía.
Teniendo en cuenta la situación problémica descrita anteriormente, se plantea como:
Problema científico:
5
¿Cómo determinar el tipo de red neuronal más efectivo en la clasificación de imágenes
aéreas para la agricultura de precisión?
Objetivo general:
Evaluar diferentes configuraciones de redes neuronales en la clasificación de imágenes
aéreas en la agricultura de precisión.
Interrogantes científicas:
1. ¿Qué referentes teóricos fundamentan la utilización de redes neuronales para la
clasificación de imágenes aéreas en la agricultura de precisión?
2. ¿Cuáles son los rasgos que caracterizan una imagen aérea en la agricultura de
precisión?
3. ¿Cuáles son las redes neuronales aplicables al campo de la clasificación de
imágenes aéreas en la agricultura de precisión?
4. ¿Qué resultados pueden obtenerse al medir el rendimiento de las redes neuronales
artificiales en la clasificación de imágenes aéreas en la agricultura de precisión?
Objetivos específicos:
1. Fundamentar teóricamente la utilización de redes neuronales para la clasificación de
imágenes aéreas en la agricultura de precisión.
2. Establecer los rasgos de una imagen aérea en la agricultura de precisión.
3. Determinar las redes neuronales aplicables al campo de la clasificación de
imágenes.
4. Evaluar el rendimiento de las redes neuronales artificiales en la clasificación de
imágenes aéreas en la agricultura de precisión.
Estructura del trabajo: Está compuesto por la introducción, el desarrollo, tres capítulos
y las conclusiones, además de recomendaciones, y bibliografía.
Capítulo 1: Expone una breve conceptualización sobre las imágenes, su
clasificación y sus diferentes aplicaciones. También se abordan los conceptos relacionados
con las redes neuronales artificiales, sus componentes, sus funciones y su clasificación de
acuerdo a determinados parámetros.
6
Capítulo 2. Expone los materiales y métodos empleados por el autor para la
consecución del objetivo planteado.
Capítulo 3. Se realiza un análisis de los resultados obtenidos y se someten a
discusión.
7
CAPÍTULO 1: FUNDAMENTACIÓN TEÓRICA DE LA
CLASIFICACIÓN DE IMÁGENES AÉREAS EN LA AGRICULTURA
DE PRECISIÓN CON REDES NEURONALES
En este capítulo se abordan algunos de los conceptos necesarios para justificar el
empleo de las redes neuronales como clasificadores no paramétricos en la clasificación de
imágenes aéreas en la agricultura de precisión.
1.1 Imágenes digitales
Una imagen natural capturada con una cámara, un telescopio, un microscopio o
cualquier tipo de instrumento óptico presenta una variación de sombras y tonos continua.
Imágenes con estas características se denominan imágenes analógicas.
Para que una imagen natural o analógica pueda ser “manipulada” por un medio de
cómputo,primero debe ser digitalizada. . (Bustos et al., 2004).
1.1.2 Representación
Una imagen se representa por una función bidimensional 𝑓(𝑥, 𝑦), cuyo valor
corresponde a la corresponde a la intensidad de luz en cada punto del espacio de las
coordenadas (𝑥, 𝑦). En el caso de una imagen monocromática, al valor de la función se le
denominará nivel o escala de gris en el punto de coordenadas (𝑥, 𝑦). Las imágenes a color
están formadas por la combinación de imágenes 2-D. En base a este concepto, una imagen
es analógica si el dominio (valores de (𝑥, 𝑦)) y el rango (valores de 𝑓(𝑥, 𝑦) son continuos,
mientras que una imagen digital posee dominio y rangos discretos.
Para convertir una imagen analógica en digital, la imagen es dividida en valores de
brillo individuales, mediante dos procesos denominados muestreo (sampling) y
cuantización (quantization) (Mihaich, 2014).
1.1.3 Resolución espacial, resolución espectral y profundidad de color
Las dos fundamentales causas de pérdida de información cuando se captura una imagen
digital son la naturaleza discreta del valor de los píxeles y el rango limitado de los valores
de intensidad luminosa que pueden tener cada uno de estos elementos. En base a estos
problemas, surgen los conceptos de resolución espacial y profundidad de color.
8
Resolución espacial
El muestreo determina la resolución espacial de la imagen. La resolución espacial de
una imagen es una característica de la misma determinada por las características del sensor
y las condiciones de adquisición de la imagen (Recio, 2010). Define el menor detalle
discernible dentro de la imagen, es decir, el menor número de píxeles comprendidos en
una unidad de distancia (por ejemplo, 500 píxeles por centímetro) (Mihaich, 2014).
La resolución espacial suele interpretarse como el tamaño del objeto más pequeño que
puede ser distinguido en una imagen: tamaño del píxel sobre el terreno (Pérez Gutierrez
and Muñoz Nieto, 2006).
Un píxel no representa un solo punto en la imagen, sino una región rectangular. Con
píxeles grandes no sólo se pierde en resolución espacial, sino que el valor del nivel de gris
correspondiente puede hacer aparecer discontinuidades o fronteras en los bordes de los
píxeles. En dichos casos es necesario realizar una clasificación sub-píxel para obtener un
grado de detalle superior al de la imagen. En cambio, cuanto menor sea el tamaño del
píxel sobre el terreno menor será la posibilidad de que se encuentren dos o más fronteras
dentro de la imagen dentro de él.
Por tanto, dependiendo de lo que se quiera tratar en la imagen, un tamaño de píxel será
más funcional que otro. En el caso de que se requiera disminuir la variabilidad de
categorías dentro de la imagen, una menor resolución espacial es la técnica empleada,
mientras que, en el caso que se quieran tratar imágenes con una alta precisión, se emplea
una resolución espacial mayor. A medida que los píxeles se hacen más pequeños, ocurre la
sensación de que la imagen es continua. Esto pasa porque el tamaño de los píxeles es
menor que la resolución espacial de nuestro sistema visual.
Imagen 1. Imagen representada en diferentes resoluciones espaciales
9
Resolución espectral:
Esta propiedad viene determinada por el número de bandas del espectro
electromagnético que es capaz de discriminar el sensor. Hay sensores que captan la
información en las bandas del espectro visible. Sin embargo, existen sensores capaces de
recoger información de longitudes de onda invisibles al ojo humano, por ejemplo, el
infrarrojo cercano, cuyas longitudes de onda son algo menores que la menor longitud de
onda que puede detectar el ojo humano (Perez and Muñoz, 2006).
Los nuevos sensores, llamados también espectrómetros o híper espectrales llegan a
tener hasta 256 canales con un ancho de banda muy estrecho (unos pocos nm) para poder
separar de forma precisa distintos objetos por su comportamiento espectral.
Así que, básicamente, la resolución espectral se refiere a la habilidad de los sistemas de
percepción de distinguir y diferenciar entre el espectro de radiación electromagnética de
distintas longitudes de onda (García-Cervigón, 2015). En cuanto a resoluciones espectrales
se pueden distinguir entre imágenes:
Multiespectrales: Que generalmente capturan información entre 3 y 7 bandas de
unos 100 nm de ancho.
Híper espectrales: Que adquieren información en varias decenas o centenas de
bandas, hasta 256 generalmente, con longitudes de onda inferiores a los 5 nm de ancho,
permitiendo así separar de forma muy precisa distintos objetos por su comportamiento
espectral.
Profundidad de color
La cuantización viene a resolver la imposibilidad de tener un rango infinito de valores
para la intensidad o brillo de los píxeles. Después de que se captura la imagen, se le asigna
a cada píxel una intensidad representada por un número entero. La apreciación de este
valor es directamente proporcional al número de bits que utiliza el dispositivo con que se
captura la imagen para representar los números enteros (Mihaich, 2014).
10
Por tanto, la profundidad de color representa el número de bits necesarios para la
codificación y el almacenamiento de la información de color de cada píxel presente en la
imagen. Un bit es una posición de memoria que puede tener el valor 0 o 1. Así, mientras
mayor sea la profundidad de color en bits, mayor será la paleta de colores presente dentro
de la imagen. Si se emplea un bit, la imagen será en blanco y negro (0=color negro y
1=color blanco), mientras que, si se utilizan 8 bits, la imagen adquirirá 256 niveles de gris.
1.2 Modelos de color
Un modelo de color es un modelo matemático abstracto que describe la forma en que
los colores pueden ser representados de forma numérica. Tienen como objetivo facilitar la
especificación de los colores de forma normalizada y aceptada genéricamente (Mihaich,
2014).
Entre los modelos de color más empleados en el procesamiento de imágenes están: el
modelo RGB y el modelo CMY.
El modo RGB forma cada color de la imagen como la combinación de tres canales
correspondientes a los colores primarios: rojo (Red), verde (Green) y azul (Blue). Es un
modelo de color basado en la síntesis aditiva: cada color se representa como la suma de los
colores primarios, siendo el blanco la suma de todos ellos (Baluja, 2009).
Este modelo no define por sí mismo lo que significa exactamente rojo, verde o azul;
por lo que los mismos valores RGB pueden mostrar tonos notablemente diferentes en
dispositivos diferentes.
El modelo CMY es el inverso exacto del modelo RGB: en este caso el origen es el
blanco y los ejes primarios son los colores cian (Cyan), magenta (Magenta) y amarillo
(Yellow). Este modelo es sustractivo, la suma de todos los colores produce el negro
(Mihaich, 2014).
Si se muestra una imagen CMY como si fuera RGB se podrá observar una imagen con
todos sus colores invertidos o negativos.
las ecuaciones (1-6) permiten pasar de un sistema a otro:
11
𝑐 = max − 𝑟 (1) 𝑚 = max − 𝑔 (2) 𝑦 = 𝑚𝑎𝑥 − 𝑏 (3)
𝑟 = max − 𝑐 (4) 𝑔 = max − 𝑚 (5) 𝑏 = max − 𝑦 (6)
donde:
máx. es el valor máximo de la intensidad, c, m e y son las componentes C, M e Y
respectivamente del modelo CMY, y r, g y b son las respectivas componentes R, G y B del
modelo RGB.
1.3 Propiedades de la imagen
Las imágenes presentan un conjunto de características descriptivas inherentes. Entre
ellas están: el tono, el color, la textura, la forma, el tamaño y el patrón (Vargas, 2008).
Tono
El tono describe el brillo relativo de los objetos. Uno de los principales criterios de
interpretación visual de una imagen es la variación en el tono en una imagen. La cantidad
de energía reflejada por la superficie de un objeto está directamente relacionada con la
expresión del tono del mismo. Las diferentes clases de objetos presentan variaciones en el
tono entre ellas, y a su vez, los objetos que pertenecen a una misma clase también difieren
en el tono entre ellos. Por ejemplo, el suelo y la vegetación presentan diferencias notables
en tono, pero, un suelo desértico y un suelo con alto contenido de óxidos ferrosos difieren
en cuanto al tono.
Diversos factores inciden en la representación del tono en una imagen, entre ellos:
- la posición del sol (su altura en el cielo y la estación del año).
- la distinta reflectividad en la banda analizada (por ejemplo, en el espectro visible la
vegetación presenta tonos oscuros, mientras que en las longitudes de onda del infrarrojo
presentan tonos más claros).
- las características de los objetos dependiendo de la época del año (por ejemplo, un río
en la época húmeda presenta un ensanchamiento, y, por tanto, un mayor tono claro, y en el
período seco se presenta un estrechamiento, presentando ambos diferentes tonos).
12
Se destaca el hecho de que, al representar una imagen en formato digital, se pierden
tonos, puesto que los detectores, en su mayoría, detectan 256 niveles de gris. Por otra
parte, el ojo humano no está capacitado para distinguir 256 niveles de gris.
Color
El ojo humano está apto para percibir longitudes de onda entre los 350 y 780nm,
separando la energía recibida en tres componentes que dan su nombre a los colores
primarios, rojo, verde y azul. En la retina hay células foto sensitivas denominadas conos.
Hay tanta cantidad de tipos de conos como colores primarios. Por esta razón se dice que la
visión humana es tricromática (Pinto, 2006).
Cualquier combinación entre los colores primarios genera un nuevo color, y a su vez,
cada color puede ser representado como una mezcla entre ellos.
Los dispositivos de visualización digitales tienen tres canales: azul, rojo y verde. En el
caso que se desee visualizar una sola banda del espectro, por ejemplo, grises, se introduce
la misma información por los tres canales del dispositivo. En el caso de que sea una
composición de color lo que se desee mostrar, los datos de las tres bandas usados son
distribuidos por cada uno de los canales, de forma que se reproducen multitud de colores
como producto de la combinación de los valores de intensidad de cada una de las tres
bandas por cada píxel.
Textura
La textura es la frecuencia con la que se suceden cambios tonales, es decir, la forma en
que se contrastan espacialmente los elementos que componen la imagen. Esta
característica se produce como una combinación de rasgos unitarios que pueden ser
demasiado pequeños para diferenciarlos individualmente, pero que juntos marcan una
diferencia respecto al resto de la foto.
En la vegetación, por ejemplo, cada hoja tiene su propia forma, tamaño, patrón, sombra
y tono, pero todas estas características juntas hacen que sea posible diferenciar entre un
tipo de vegetación y otra. La textura está estrechamente ligada a la resolución espacial del
sensor, ya que procede de la relación entre el tamaño del objeto y dicha resolución. A
medida que aumenta la altura a la que se fotografía el objeto o área, la textura se hace
progresivamente más fina hasta desaparecer (Arista et al., 2017).
13
Tamaño:
El tamaño de los objetos se tiene que determinar en el contexto de la resolución
espacial y la escala a la que se muestra la imagen. También es importante relacionar el
tamaño del objeto analizado con otros objetos de la imagen, para saber, por ejemplo, si
una carretera o camino es más o menos importante.
Patrón:
Se refiere a la distribución espacial de los objetos en ciertas formas cada cierta área. Se
habla de patrón concéntrico, de patrón rayado, de patrón radial, de patrón cuadriculado,
etc.
1.4 Imagen aérea
La fotografía aérea supone un análisis de la superficie terrestre mediante el empleo de
máquinas fotográficas instaladas a bordo de diversos medios. Las plataformas para la
fotografía aérea incluyen aviones de ala fija, helicópteros, vehículos aéreos no tripulados
(UAV o “drones”), globos y dirigibles, cohetes, palomas, cometas, paracaídas, etc. (Peña
et al., 2014).
Encuentra aplicaciones en diversos campos, como son, la investigación arqueológica
(Treworder, 1999), la prospección geológica, en el control de la deforestación y la
desertización, en la oceanografía costera, en las planificaciones y ejecuciones urbanísticas,
etc.
En la agricultura expresamente se emplea para recabar información sobre la naturaleza
de los terrenos y la extensión de los cultivos, aparte de realizar un seguimiento más
preciso a la evolución de los mismos (García and Flego, 2009).
La fotografía orbital permite la obtención de imágenes de altura muy superior a
aquellas enmarcadas en las fotografías aéreas, de la cual constituye una extensión.
Mediante aparatos fotográficos instalados a bordo de vehículos espaciales o satélites que
orbitan en torno a la Tierra, toman fotografías de alta precisión que son fundamentales en
los estudios meteorológicos, la contaminación de los mares, etc. (Recio, 2010).
14
1.4.1 Imágenes aéreas en la agricultura de precisión
Una imagen aérea en la agricultura, generalmente, es una foto vertical, es decir, que la
cámara fotográfica señala directamente al suelo y provee una vista plana del medio.
Como fruto del interés por discriminar objetos a diferentes escalas, las imágenes aéreas
tomadas para la agricultura de precisión en la actualidad disponen de una elevada
resolución espacial. Existen diferentes formas o metodologías para el análisis de esas
imágenes. Algunos estudios se centran en el análisis de la vegetación como objeto a gran
escala (Recio, 2010; Berrío, Mosquera and Alzate, 2015; García-Cervigón, 2015),
mientras que otros se concentran en el estudio de los objetos más pequeños que conforman
la vegetación a nivel de unidad, las plantas (Vargas, 2008; Peña et al., 2014).
1.5 Proceso de reconocimiento y clasificación de imágenes
Un sistema de visión por computadora y la posterior clasificación de las imágenes
obtenidas permiten realizar la identificación y clasificación de los objetos contenidos
dentro de las imágenes siguiendo un procedimiento que incluye (Hernández Hernández,
2014).:
Mejoramiento de la imagen
Segmentación y etiquetado
Representación y Descripción
Reconocimiento de formas
1.5.1 Mejoramiento de la imagen
El mejoramiento de la imagen se centra en la eliminación de ruido en la imagen, realce
de bordes, elección de los mejores valores de brillo y contraste, eliminación de los efectos
de distorsión introducidos por el mecanismo de captura de la imagen, etc.
Un ejemplo claro es cuando se incrementa el contraste de una imagen debido a que “se
ve de una mejor forma”.
15
Estas “mejoras” generalmente se consiguen operando con el histograma de la imagen,
el cual es una representación del nivel de intensidad de cada píxel por la cantidad de veces
que aparece en la imagen. En el caso de que se quiera representar esa escala en referencia
a la unidad, se divide cada valor por la cantidad de píxeles de la imagen, obteniéndose así
un histograma normalizado.
Una de las operaciones básicas que se realiza sobre el histograma es la ecualización, la
cual consiste en balancear la frecuencia de los niveles de intensidad de una imagen, dando
como resultado una imagen con mejor contraste.
1.5.2 Representación y descripción
La representación y descripción casi siempre es la etapa siguiente a la de segmentación
y etiquetado, cuya salida es usualmente un conjunto de píxeles los cuales constituyen a un
objeto en la imagen o región.
La primera decisión que se debe tomar es si el conjunto de datos representa los límites
de una región o la región completa. La representación de límites es apropiada cuando el
problema se enfoca en las características externas de un objeto, como lo son las esquinas o
puntos de inflexión. La representación de las regiones es útil cuando se orienta a las
propiedades internas de los objetos, como son la textura o la forma del esqueleto de los
objetos (Hernández, 2014).
1.5.3 Reconocimiento de formas
El reconocimiento de formas es el proceso que le asigna un nombre “con un
significado” a un objeto, el cual se basa en su descripción y características. El
reconocimiento de un objeto requiere un conocimiento previo de lo que son los objetos. A
ese conocimiento se le denomina “base de conocimiento” (Mihaich, 2014).
1.6 Clasificadores de imágenes
Un clasificador de imágenes es un método que procesa una imagen o un conjunto de
ellas y retorna la imagen clasificada en los objetos que la componen. Existen varios tipos
de clasificadores:
16
1.6.1 Métodos de clasificación según la unidad espacial
La resolución espacial de una imagen es una característica determinada por las
características del sensor y por las condiciones de adquisición de la imagen. Siendo una de
las características de la imagen, el píxel no debe condicionar totalmente la metodología a
utilizar ni el tamaño de los objetos a extraer del análisis de la imagen.
En determinados problemas, el tamaño del píxel será demasiado grande en relación con
el tamaño de los objetos a identificar, requiriendo de una clasificación sub pixel para
obtener un grado de detalle superior en la imagen. En cambio, en el caso de imágenes de
alta resolución, se hace necesario el análisis de una región de píxeles con propiedades
similares (Recio, 2010).
A continuación, se realiza un compendio de los principales métodos de clasificación, y
su proyección en la agricultura de precisión.
Clasificadores por píxel:
Los clasificadores por píxeles tradicionales obtienen un vector de características para
cada clase a partir de las propiedades espectrales de todos los píxeles contenidos en sus
respectivas áreas de entrenamiento.
Cada píxel es asignado a una categoría que es exclusiva. Esta metodología da buenos
resultados en las cubiertas espectralmente homogéneas, pero proporciona resultados
menos satisfactorios en las cubiertas heterogéneas. Sus principales inconvenientes son que
no consideran la información espacial de la imagen y la existencia de píxeles mixtos, o de
borde, que representan mezclas de dos o más tipos de clases (Blaschke, Burnett and
Pekkarinen, 2004).
Aunque la clasificación por píxel se ha demostrado útil para la clasificación de cultivos,
hay dos problemas de clasificación frecuentes: la variabilidad espectral de una cubierta
dentro de una parcela agrícola debido a, por ejemplo, variaciones de la humedad del suelo,
diferencias en nutrientes, enfermedades, etc. Esta heterogeneidad espectral en el interior
de una parcela permite que sucedan clasificaciones erróneas, aun teniendo toda ella el
17
mismo cultivo. Por otro lado, se presenta la aparición de píxeles mixtos situados en la
zona de contacto de dos parcelas limítrofes. En algunos casos, la huella espectral de los
píxeles mixtos, es más similar a un cultivo distinto a los dos presentes en esa superficie,
con lo que su clasificación será incorrecta (Smith and Fuller, 2004).
Clasificadores sub-píxel:
La suposición de que cada píxel pertenece a una clase informacional no es correcta en
todos los casos, especialmente cuando se trata de paisajes complejos y la resolución
empleada es media o baja. La existencia de píxeles mixtos dificulta la aplicación de los
algoritmos clasificadores por píxel. Por tanto, se hace necesario un enfoque diferente.
En lugar de un clasificador “duro”, entendido como el que asigna una única clase a
cada píxel, se utilizan clasificadores blandos que determinan el grado de pertenencia de un
píxel a cada clase. Entre estos métodos destaca la clasificación difusa o borrosa (fuzzy),
que determina para cada píxel el grado de pertenencia a las distintas clases a partir de las
funciones de pertenencia definidas para cada una de ellas (Recio, 2010).
Clasificadores de contexto:
En la clasificación por píxel se utiliza el nivel digital del píxel en varias bandas
espectrales, es decir, los valores que le corresponden a un píxel en un espacio
multidimensional de características, pero no se considera el contexto espacial en que se
encuentra. El contexto espacial ha tenido una importancia reducida en el análisis de
imágenes basado en píxeles. Se ha centrado la atención en el análisis estadístico de los
valores almacenados en los píxeles, más que en descubrir y entender los patrones
espaciales que ellos siguen.
Entre los rasgos más importantes para la interpretación visual humana siempre se
incluyen las características espaciales de la imagen como son la textura, la forma, el color,
etc. Los algoritmos que emplean más datos además del nivel de gris se conocen como
algoritmos de contexto.
18
La clasificación contextual puede clasificarse en tres tipos en función de la etapa en la
que hacen uso de las características espaciales: pre-procesado, post-procesado y
clasificador contextual (Gong and Xu, 2004):
Imagen 2. Clasificadores de contexto. Adaptada de Gong y Xu, 2004
Métodos de pre-procesado: Consisten en extraer de la imagen una serie de
características espaciales descriptivas del dominio circundante de cada píxel.
Cada una de las características espaciales extraídas de la imagen se incorpora a un
espacio multidimensional de características, de modo que cada píxel tiene asociado un
vector de características espectrales y espaciales o texturales. Posteriormente, cada píxel
será asignado a una clase por un clasificador de máxima probabilidad, de mínima distancia
o cualquier otro clasificador estadístico o no paramétrico.
Existen numerosos métodos diseñados para extraer información textural de la imagen,
como por ejemplo, la matriz de coocurrencia de niveles de gris (Haralick, Shanmugan and
Dinstein, 1973), los filtros de Gabor (Weldon and Higgins, 1998), la transformada wavelet
(Ruiz, Fernández and Recio, 2004), el variograma (Chica and Abarca, 2000).
Métodos de post-procesado: Estos métodos perfeccionan las imágenes ya
clasificadas y son conocidos como re clasificadores contextuales. Los métodos de post-
procesado evalúan una clasificación y la modifican según un determinado criterio. Un
ejemplo de algoritmo de post-procesado es la aplicación de un filtro de moda, que asigna a
19
cada píxel la clase más frecuente en su vecindario. Otro método de post-procesado es el
método SPARK o kernel de reclasificación espacial, que consiste en definir unas matrices
que representan patrones espaciales típicos de los distintos usos de suelo (Sluiter et al.,
2004).
Clasificadores de contexto: En lugar de extraer información contextual y
almacenarla para usarla en la clasificación como ocurre en los métodos contextuales de
pre-procesado, un clasificador contextual organiza la información del entorno del píxel
directamente en el proceso de asignar una etiqueta de clase al píxel.
Clasificadores orientados a objetos
Entre los métodos clasificadores que consideran la distribución espacial existente en la
imagen se incluyen los clasificadores orientados a objetos.
Hay y Castilla(2006), definen el Análisis de Imágenes Orientado a Objetos como una
disciplina dedicada a dividir las imágenes en objetos con significado propio y al mismo
tiempo, obtener sus características desde un punto de vista espacial, espectral y temporal.
En esta metodología se considera la forma, la textura y las propiedades espectrales de los
objetos que forman la imagen, así como las relaciones existentes con los objetos vecinos
situados en un contexto espacial más o menos cercano, aumentando de forma considerable
las características descriptivas de los objetos que facilitarán su correcta clasificación,
siendo los objetos los que se clasifican y no los píxeles individualmente.
El primer paso de estos clasificadores es la segmentación de la imagen que debe
hacerse teniendo en cuenta la resolución de la imagen y el tamaño de los objetos a
identificar. El resultado es un conjunto de regiones que cubren totalmente la imagen.
Todos los píxeles de una región son similares con respecto a alguna característica, al
mismo tiempo que son diferentes de los píxeles situados en regiones adyacentes. Una
imagen puede segmentarse en objetos de mayor o menor tamaño, determinando las
características derivadas de los objetos de la imagen. El hecho de segmentar una imagen
en diferentes escalas da lugar a que surja una estructura jerárquica entre los objetos de los
distintos niveles, ya que un objeto puede incluir objetos de niveles inferiores, y a su vez,
20
formar parte de objetos de un nivel superior, por ejemplo, se puede segmentar una imagen
y obtener objetos de tipo árboles, que a su vez pudieran segmentarse en objetos de tipo
hoja, si la resolución espacial lo permite; y a su vez los objetos árboles forman parte de un
objeto tipo bosque.
La característica más valiosa de la clasificación de imágenes orientada a objetos es la
posibilidad de obtener un gran número de características descriptivas de los objetos y de
las relaciones existentes entre los mismos que permiten describirlos mejor, y, por lo tanto,
diferenciarlos y obtener resultados más precisos y específicos (Recio, 2010).
1.6.2 Métodos de clasificación no paramétricos:
Los métodos de clasificación pueden ser paramétricos o no paramétricos. Los
clasificadores paramétricos asumen que los datos de una clase siguen una distribución
normal y que los parámetros estadísticos, como la media y la varianza, difieren
significativamente entre las clases.
Sin embargo, esta asunción no siempre es correcta, ya que generalmente existe
confusión espectral entre clases parecidas(Romero and Calonge, 2004), y clases diferentes
con propiedades espectrales similares (Vega, 2011).
Otro de los inconvenientes de los clasificadores paramétricos reside en la dificultad de
combinar datos espectrales con otros datos auxiliares que permitan completar la
información proveniente de la imagen, por no cumplir los requisitos estadísticos impuestos
por estos métodos.
En cambio, los métodos no paramétricos no realizan ninguna asunción sobre la
naturaleza de los datos ya que no emplean parámetros estadísticos para calcular la
separabilidad entre clases. Además de ser especialmente adecuados para la incorporación
de datos externos a las imágenes en el proceso de clasificación. Entre los clasificadores no
paramétricos más utilizados están los sistemas expertos basados en árboles de decisión
(Huang and Jensen, 1997) y las redes neuronales (Romero and Calonge, 2004; Vega,
2011; García, 2013; Hernández, 2014; Mihaich, 2014).
21
1.7 Redes neuronales
Una red neuronal artificial (RNA) es un modelo matemático construido emulando el
funcionamiento de las neuronas biológicas (Vera et al., 2009). Al estar construidas
basándose en la actividad neurológica, sus unidades de funcionamiento son las neuronas
artificiales.
El fin perseguido con las RNA es emular el sistema nervioso biológico a través de
procesadores artificiales, que incluso permitan evitar fallas o errores humanos. Una RNA
puede considerarse como un modelo de actividades mentales, basado en la explotación del
procesamiento local en paralelo y en las propiedades de la representación distribuida.
Los elementos básicos de un sistema nervioso biológico son las neuronas, agrupadas en
redes compuestas por millones de ellas y organizadas a través de una estructura de capas.
En un sistema neuronal artificial puede establecerse una estructura jerárquica similar, de
forma que las neuronas cuyas entradas provienen de la misma fuente y sus salidas se
dirigen al mismo destino, se denomina capa o nivel. La agrupación de estos conjuntos
constituye el sistema neuronal completo.
Una red neuronal es un conjunto de neuronas agrupadas en capas, interconectadas entre
sí mediante conexiones, que realizan el proceso de comunicar las señales dentro de la red.
Cada una de estas conexiones está ligada a un peso, que determina la información
empleada por las neuronas para resolver un problema (Lizarazo, Mesa and Cuitiva, 2005).
Las entradas de una neurona pueden provenir o bien del entorno, como es el caso de las
neuronas de la primera capa, o bien de otras neuronas, como es el caso de cualquiera de
las neuronas de las otras capas. La salida asimismo es enviada o bien a otras neuronas o al
entorno mediante las neuronas de la última capa.
Cada una de estas neuronas o procesadores suma las entradas ponderadas y su resultado
se opera a través de una función conocida como función de transferencia.
La modificación de las ponderaciones efectuadas es la clave del aprendizaje de la red
(Mihaich, 2014). De esta forma, la red neuronal artificial aprende de sus propios errores,
22
basándose en un proceso que, mediante la representación de un conjunto de patrones de
información, permiten al sistema la generalización de conceptos a partir de casos
particulares (Lizarazo, Mesa and Cuitiva, 2005).
Una red neuronal puede representarse como un grafo dirigido con las siguientes
propiedades (Mihaich, 2014):
A cada nodo j se le asocia una variable de estado xj.
A cada conexión (i,j), entre los nodos i y j, se le asocia un peso 𝑤𝑖𝑗 ∈ ℝ
En muchos casos, a cada nodo se le asocia un umbral de disparo 𝜃𝑗
Para todo nodo j, se define una función 𝑓𝑗(𝑥𝑖, 𝑤𝑖𝑗, 𝜃𝑗), que depende del estado de
todos los nodos unidos a él, de los pesos de sus conexiones y del umbral de activación para
proporcionar un nuevo estado.
Considerando el lenguaje habitual de los grafos, pueden establecerse las siguientes
equivalencias:
Un nodo representa una neurona.
Una conexión representa una sinapsis.
Una neurona de entrada es aquella sin conexiones entrantes.
Una neurona tanto con entradas como salidas, se denomina neurona oculta.
Una neurona de salida es la que no presenta conexiones salientes.
El número de neuronas por cada capa está determinado por las propiedades del problema
a resolver. Generalmente, el número de neuronas de la capa de entrada coincide con la
cantidad de entradas individuales de la red, y el número de neuronas de la capa de salida es
generalmente el número de clases en las que separa la solución. El número de neuronas de
la capa intermedia no está sujeta a ningún parámetro.
Las ventajas principales de las redes neuronales frente a otros métodos de clasificación
son que no requieren una distribución normal de los datos (Recio, 2010), y su habilidad
para adaptarse a patrones complejos y no lineales (Jensen, 2005).
Una red neuronal para la clasificación de imágenes, generalmente consta de tres capas.
Una capa de entrada, donde por cada clase descriptora de los rasgos de la imagen (textura,
23
color, forma, etc.) se tiene una neurona. Una capa intermedia u oculta, que es donde se
efectúa el aprendizaje de la red y una capa de salida, generalmente con la misma cantidad
de neuronas que de clases que se quieren clasificar con la red.
Imagen 3. Estructura de una red neuronal para la clasificación de imágenes
Para que la información sea procesable por la red neuronal, requiere que los datos sean
organizados en forma de vector, de modo que este es llamado vector de características o
vector de rasgos. El mismo puede ser conformado por los rasgos extraídos a la imagen. Un
ejemplo hipotético, si se quisiera reconocer una imagen binaria de un conjunto de datos, el
vector de características asociado podría ser un arreglo de dimensión mxn, donde m y n
son las dimensiones de la imagen. En cada posición del vector está contenido el valor
numérico del píxel representado en esa posición.
De todo lo anteriormente expuesto, se deduce que una neurona puede ser considerada
como un dispositivo altamente no lineal, integrado en un sistema masivamente paralelo,
dotado de gran robustez y con una alta tolerancia a fallos (Mihaich, 2014).
En un espacio bi-espectral en que una línea recta pueda separar los píxeles que
conforman dos clases temáticas, esta línea recta puede extenderse a un espacio
multidimensional y construir un híper-plano o superficie de decisión para clasificación
multiespectral (Lizarazo, Mesa and Cuitiva, 2005).
24
La posición de esa superficie no se conoce inicialmente y debe ser determinada
mediante alguna técnica de entrenamiento que permita determinar un conjunto apropiado
de pesos que defina una superficie de decisión correcta para separar los píxeles de
muestra. Es notable el hecho de que no exista una única solución, sino que existe un
infinito número de híper-planos de decisiones que podrían ser capaces de separar las dos
clases.
1.7.1 Elementos y características principales de las RNA
Las redes neuronales artificiales, siendo modelos que intentan emular el
comportamiento del cerebro, realizan una simplificación del sistema neuronal humano en
base a sus elementos estructurantes e imitando su comportamiento de forma
computacional.
El procedimiento convencional empleado para construir redes capaces de realizar una
determinada tarea consiste en una elección adecuada de las características de cada
neurona, de la arquitectura de la red y el modo de operación o aprendizaje.
A continuación, se describen los principales elementos de las RNA:
La neurona
Las redes neuronales artificiales están conformadas por una serie de dispositivos
elementales, nombrados neuronas artificiales. Constituyen dispositivos simples de cálculo
que a partir de un vector de entradas procedentes del mundo exterior o de un vector de
estímulos recibidos de otras neuronas, proporcionan una respuesta única. Se distinguen
tres tipos de neuronas artificiales (Mihaich, 2014):
Las neuronas de entrada, que reciben señales desde el entorno.
Las neuronas de salida, que envían su señal directamente fuera del sistema
Las neuronas ocultas, que reciben y envían estímulos dentro del sistema, sin
mantener contacto alguno con el exterior. Es en ellas donde se realiza el procesamiento
básico de la información.
Función de propagación
25
Una función de propagación es aquella regla que establece el procedimiento a seguir
para combinar valores de entrada y los pesos de las conexiones que llegan a una unidad.
En la práctica, es común el empleo de una matriz W, integrada por todos los pesos wij
indicativos de la influencia que tiene la neurona i sobre la neurona j. Si el valor es
positivo, la conexión entre i y j es excitatoria. Esto quiere decir, siempre que la neurona i
esté activada, la señal j recibirá una señal que tenderá a activarla. Si, por el contrario, el
valor wij es negativo, la interacción entre ambas neuronas es inhibitoria. Es decir, si la
neurona i se activa enviará a la neurona j una señal que tenderá a desactivarla. Si el valor
wij es cero, se considera que no existe conexión entre ambas neuronas.
Función de activación o transferencia
La función de activación combina el potencial post-sináptico de la j-ésima neurona con
el estado inicial de la neurona que recibe su entrada de la salida de j, para producir un
nuevo estado de activación acorde con la información recibida (García, 2013).
Generalmente la función de transferencia tiene carácter determinista, y en la mayor
parte de los modelos, es monótona, creciente y continua respecto al nivel de activación de
la neurona. A menudo se emplea una función de tipo sigmoidal, y suele ser la misma para
cada unidad de la capa.
En general, se pueden distinguir seis funciones de transferencia típicas (Mihaich,
2014):
1. La función lineal o identidad (purelin), que devuelve directamente el valor de
activación de la neurona. Este tipo de función se utiliza en las redes de baja complejidad,
como en el modelo Adaline.
2. La función escalón o signo, que representa salidas binarias (habitualmente -1,1 o
0,1). En este caso, si la activación de una neurona es inferior a un determinado umbral, la
salida se asocia con un determinado output,y si es igual o superior al umbral, se asocia con
el otro valor. Si bien las neuronas definidas con este tipo de funciones resultan fáciles de
implementar, sus aplicaciones son limitadas, al restringirse a problemas binarios. Entre las
26
redes que utilizan funciones de transferencia de tipo escalón, destacan el Perceptrón
Simple, la red de Hopfield discreta y la neurona clásica de McCulloch Pitts.
3. La función mixta o lineal a tramos, es la que, si la activación de una unidad es
menor que un límite inferior preestablecido, la salida se asocia con un determinado valor,
si el valor de activación es igual o superior que un límite superior, la salida se asocia con
otro valor; si el nivel de activación se encuentra comprendido entre ambos umbrales, se
aplica la función lineal. Esta alternativa se considera como una función lineal saturada en
sus extremos, siendo de sencillez computacional y resultando más plausible desde el punto
de vista biológico.
4. La función sigmoidea, definida en un determinado intervalo monotónico con
límites superiores e inferiores. Entre las funciones sigmoideas más aplicadas destacan la
función sigmoide o logística, la función tangente hiperbólica, y la función sigmoide
modificada. Las funciones sigmoideas se caracterizan por presentar una derivada simple
positiva e igual a cero en sus límites asintóticos, que toma su valor máximo cuando x = 0.
Así, estas funciones admiten la aplicación de las reglas de aprendizaje típicas de la función
escalón, con la ventaja adicional de que la derivada se encuentra definida en todo el
intervalo, lo que permite utilizar algoritmos de entrenamiento más avanzados.
5. La función gaussiana, que adquiere la forma de campana de Gauss, cuyo centro,
radio y apuntamiento son susceptibles a adaptación, lo que las hace muy versátiles. Las
funciones gaussianas se suelen aplicar a redes complejas con dos o más capas ocultas, que
requieren reglas de propagación basadas en el cálculo de distancias cuadráticas entre los
vectores de entrada y los pesos de la red (por ejemplo, la distancia euclídea al cuadrado).
6. La función sinusoidal, que genera salidas continuas en el intervalo [-1,1]. Estas
funciones suelen emplearse en los casos en los que se requiere explícitamente una
periodicidad temporal.
Función de salida
Cada neurona tiene asociada una función de salida F que transforma el estado actual de
activación en una señal de salida.
27
Habitualmente, la función de salida coincide con la función identidad F(x)=x, por lo
que el estado de activación de la neurona se asocia con su salida final. Esta situación es
típica en las redes más empleadas en la práctica, como la Adaline, el Perceptrón Simple o
el Perceptrón Multicapa.
En otros casos, la salida final de la neurona se calcula mediante una función estocástica
del estado de activación inicial, por lo que la neurona presentará un comportamiento
probabilístico. Este es el caso de las funciones de transferencia utilizadas en redes como la
Máquina de Boltzmann o la Máquina de Cauchy (Lizarazo, Mesa and Cuitiva, 2005).
Señal de salida
En el caso de problemas de clasificación suele considerarse un conjunto finito de
salidas, en muchos casos binarias, mientras que en las tareas de ajuste de regresión suelen
precisarse salidas continuas en un determinado intervalo. El tipo de salida determinará la
función de transferencia y la señal de salida que debe emplearse.
Regla de aprendizaje
Biológicamente se acepta que la información memorizada en el cerebro depende de
varios valores sinápticos representativos de las conexiones existentes entre las neuronas.
De forma similar, en las RNAs se puede considerar que el conocimiento se encuentra
representado en los pesos de las conexiones entre las neuronas artificiales, por lo que el
proceso de aprendizaje o entrenamiento implica cierto número de cambios en estas
conexiones.
Ahora bien, cada modelo de redes neuronales artificiales dispone de sus propias
técnicas de aprendizaje, que dependen de la arquitectura de la red y del algoritmo de
entrenamiento implementado (Mihaich, 2014).
1.7.2 Arquitectura de las RNAs
La topología o arquitectura de una RNA referencia a la ordenación y disposición de las
neuronas en la red y sus interconexiones.
28
Básicamente, la arquitectura de una red depende de cuatro parámetros principales
(Mihaich, 2014):
1. El número de capas del sistema
2. El número de neuronas por capa
3. El grado de conectividad entre las neuronas
4. El tipo de conexiones neuronales
Las arquitecturas se clasifican de acuerdo a distintos criterios:
1. Según su estructura en capas:
1.1 Redes monocapas: Están compuestas por una única capa de neuronas entre las
cuales se establecen conexiones laterales y a veces autorrecurrentes. Este tipo de redes se
emplea en la resolución de problemas de autoasociación y clusterización
1.2 Redes multicapa: Son redes cuyas neuronas están distribuidas en varias capas: de
entrada, de salida y oculta(s). Se puede saber en qué capa está una neurona midiendo las
entradas que recibe y observando el destino de la señal que genera.
2. Según el flujo de datos de la red:
2.1 Redes unidireccionales o de propagación hacia delante (feedforward): En esta
arquitectura de redes, la salida de una neurona nunca va dirigida a una neurona de una
capa anterior o a una de su mismo nivel, sino que las salidas siempre van dirigidas a la
capa siguiente. El flujo es unidireccional, de las neuronas de entrada a las de salida.
2.2 Redes de propagación hacia atrás (feedback): En estas redes, las salidas de las
neuronas pueden servir de entrada a neuronas de capas previas o a neuronas en el mismo
nivel. Una categoría especial dentro de la arquitectura es aquella que presenta lazos
cerrados, y se denominan sistemas recurrentes.
3. Según el grado de conexión:
3.1 Redes neuronales totalmente conectadas: En estos casos, cada una de las neuronas
de una capa está conectada o bien con cada una de las neuronas de la capa siguiente o con
cada una de las neuronas de la capa precedente.
3.2 Redes neuronales parcialmente conectadas: En este caso no se da la conexión total
entre las neuronas de diferentes capas.
29
4. Según el tipo de respuesta de la red:
4.1 Redes heteroasociativas: Son redes entrenadas para que, al presentarse al sistema
un patrón A, el mismo responda con uno diferente B. Precisan de al menos dos capas, una
para captar y retener la información de entrada y otra para mantener la salida con la
información asociada. Estas redes son empleadas en computar una función matemática a
partir de las entradas que recibe, en la clasificación y en la asociación de patrones, entre
otros.
4.2 Redes autoasociativas: Redes entrenadas para que se asocie un patrón consigo
mismo. Su interés radica en que, ante la presentación de un patrón A’ modificado, por
ejemplo, con ruido, su respuesta sea el patrón original A. Su empleo está
fundamentalmente, en tareas de filtrado de información, en clustering y en problemas de
optimización.
1.7.3 Aprendizaje de la red
Uno de los principales procesos que ocurren en una red neuronal es el proceso de
aprendizaje o entrenamiento. Puede definirse como el proceso mediante el cual la red crea,
modifica o destruye los pesos asociados a las conexiones entre las neuronas.
Antes de que se pueda realizar una clasificación, la red tiene que ser entrenada. Esto
determinará el vector de pesos para cada procesador asociado a la red. Una red no
entrenada o entrenada incorrectamente dará salidas erróneas (Recio, 2010).
La red se inicializa con un conjunto de pesos arbitrario, de forma que la red de un
resultado cualquiera. Luego, cada una de las componentes del vector de características son
examinadas una a la vez por la red. Para un parámetro dado, la salida de la red es
calculada por sus ecuaciones. La salida probablemente será incorrecta, por lo que habrá
que hacer un reajuste de los pesos del sistema. Este paso se repite hasta que el error
obtenido sea menor que un parámetro dado. Con estos nuevos valores de pesos se pueden
encontrar nuevos valores de pesos extendiendo el error hacia atrás. Esta técnica se conoce
como retro-propagación (back-propagation).
30
Generalmente en una red de múltiples capas se emplea el log-sigmoid o función de
transferencia logarítmica como función de transferencia. Alternativamente, las redes
multicapa pueden usar el tan-sigmoid o función de transferencia tangencial como función
de transferencia. También se emplea la función de transferencia lineal.
Las tres funciones de transferencia descritas anteriormente son las usadas normalmente
para backpropagation, aunque pueden crearse otras funciones diferentes. Backpropagation
requiere que las funciones implementadas tengan derivada en todo su dominio.
Existen dos tipos básicos de aprendizaje que pueden ser empleados para actualizar los
pesos (Mihaich, 2014):
1. Aprendizaje supervisado: En este caso, un agente externo (supervisor o maestro),
controla el proceso de entrenamiento al establecer la respuesta que debería generar la red a
partir de una entrada determinada.
Se compara la salida de la red con la esperada, y si existen diferencias, los pesos de las
conexiones se ajustan iterativamente en base al error cometido y se repite hasta que el
resultado se aproxime al esperado con cierto grado de confianza.
2. Aprendizaje no supervisado o auto supervisado: En este caso, el entrenamiento
ocurre sin la presencia de ningún agente externo. Se basa en la introducción de cambios
aleatorios en los valores de los pesos de la red, evaluando su efecto a partir de la salida
deseada y de una determinada distribución de probabilidad.
De esta forma, el sistema es capaz de reconocer las peculiaridades o categorías
presentes en un conjunto de entrada, extrayendo rasgos o agrupando patrones según su
similitud.
Para que los resultados obtenidos sean de calidad, es necesario un cierto nivel de
redundancia. Dado que en este tipo de sistemas no existe una salida deseada, existen varias
formas de interpretar los resultados. En algunos casos, la salida magnifica el grado de
similitud entre la información que se ha presentado y la que se había procesado hasta
entonces. Otras veces, la RNA puede realizar distintos tipos de tareas tales como tareas de
categorización o tareas de codificación.
31
En base a la categorización, se puede llevar a cabo una asociación de características
(feature mapping), tal que las neuronas de salida simbolicen un mapa de las propiedades
de los datos de la entrada.
1.7.4 Evaluación del aprendizaje de la red
Uno de los principales aspectos en la construcción y desarrollo de las RNAs es la
capacidad de generalización a partir de ejemplos, evitando el simple aprendizaje de
memoria de los patrones de aprendizaje y devolviendo una respuesta correcta ante
individuos no vistos nunca por la red en su etapa de entrenamiento.
Obtener una adecuada generalización de la red resulta de mayor importancia que
conseguir un error reducido en la fase de entrenamiento, dado que esto indica la correcta
captura por parte del sistema de las relaciones subyacentes de los datos.
Tras una etapa inicial en la que la tasa de error puede oscilar, el error de aprendizaje
disminuye monótonamente mientras que el error de generalización se decrementa hasta
cierto punto en el cual comienza a incrementarse como consecuencia del excesivo ajuste
de la red a las particularidades de los patrones de entrenamiento (Mihaich, 2014).
El fenómeno anteriormente explicado responde al nombre de sobreaprendizaje
(overtraining). Puede evitarse usando procesos de validación cruzada (cross validation), es
decir, entrenando y validando a la red simultáneamente para detectar un punto óptimo de
aprendizaje.
Una vez entrenada la RNA resulta necesario evaluar los resultados obtenidos para
determinar su validez práctica. McNelis (2005) propone dos grandes criterios para realizar
la evaluación:
• Criterios ‘dentro de la muestra’
• Criterios ‘fuera de la muestra’
Los criterios ‘dentro de la muestra’ tratan de analizar la capacidad de la RNA para
caracterizar correctamente al conjunto de datos utilizado en su entrenamiento, como su
nombre indica.
Los criterios ‘fuera de la muestra’ analizan la capacidad de generalización ante la
presentación de patrones nuevos a la red. Para ello se define una función de pérdida L a
utilizar para estimar el error de predicción cometido por el modelo. Las funciones más
32
habituales son: el error absoluto o error cuadrático (en problemas de aproximación de
funciones), y el error de clasificación procedente de las tablas de contingencia o confusión
(en problemas de clasificación).
El método por defecto en Matlab para mejorar la generalización, se llama detención
temprana (early stopping). Esta técnica es automáticamente provista con todas las
funciones de creación de redes supervisadas.
En esta técnica, los datos disponibles son divididos en tres porciones o subsets. El
primer subset se emplea como el set de entrenamiento, que es usado para computar el
gradiente y actualizar las conexiones y pesos de la red. El segundo subset es el set de
validación. El error de validación es monitoreado durante el proceso de entrenamiento. El
error de validación normalmente disminuye durante la fase de entrenamiento,
conjuntamente con el error de entrenamiento. Sin embargo, una vez que la red comienza a
reprocesar los datos en otra época o iteración total de los datos, el error en el set de
validación típicamente repunta. Cuando el error de validación aumenta para un número
especificado de iteraciones (net.trainParam.max_fail), el entrenamiento se detiene y los
pesos y ajustes de la red son devueltos en el momento de mínimo error de validación.
1.8 Redes neuronales en la clasificación de imágenes aéreas en la agricultura de
precisión
El objetivo principal de este trabajo es comparar diferentes configuraciones o
arquitecturas de redes neuronales para la clasificación de imágenes aéreas en la agricultura
de precisión. El autor considera realizar una comparación entre tres arquitecturas de redes:
el perceptrón simple, el perceptrón multicapa y los mapas auto organizados o redes de
Kohonen. A continuación, se describen las características de cada una de ellas, sus
potencialidades y sus detractores.
1.8.1 Red neuronal de tipo perceptrón simple
El caso más sencillo de una red neuronal es el que presenta una sola neurona de
procesamiento. El funcionamiento de la red neuronal de tipo perceptrón simple se basa en
comparar la salida del sistema con la señal deseada. Se requiere que el algoritmo sea
33
supervisado, ya que es necesario que un agente externo determine la clase de pertenencia
de cada elemento de entrada.
La única neurona del perceptrón realiza la suma ponderada de las entradas, resta el
umbral y pasa el resultado a una función de transferencia. En el caso de que la función sea,
por ejemplo, escalón, la regla de decisión es responder uno (1) si el patrón presentado es
de la clase A, y menos uno (-1) si el patrón pertenece a la clase B. La salida dependerá de
la entrada neta (suma de las entradas ponderadas) y el valor umbral (Vera et al., 2009).
Es necesario que el problema a resolver por la red perceptrón sea linealmente
separable, es decir, que se puedan dividir las clases por una única recta en el espacio bi-
dimensional o un hiperplano en el hiperespacio de posibilidades de separación. En el caso
de que el problema no sea linealmente separable, normalmente la solución más sencilla es
agregar más neuronas de procesamiento, aunque en ese caso ya dejaría de ser un
perceptrón simple. Existen otros artificios para separar las clases, como considerar en vez
de una línea para la separación, una elipse, aunque eso requiere el ajuste de las fórmulas
asociadas. Otra posible solución, sería tratar de procesar los datos como una combinación
de perceptrones, de modo que cada una responda, o es del tipo A o no es, luego otra tome
la salida negativa de la primera y diga, es del tipo B o no, y así sucesivamente.
En estos casos, el algoritmo de aprendizaje puede ocasionar oscilaciones en los valores
de los pesos. Para contrarrestar estas variaciones surgen otras alternativas, una de ellas es
el perceptrón multicapa y el otro es el algoritmo de bolsillo (pocket algorithm).
El algoritmo de bolsillo, en efecto, lo que hace es aplicar el algoritmo perceptrón, pero
guarda los dos mejores vectores de pesos, que coinciden con los dos mejores resultados
presentados por la red. Si el vector siguiente en el algoritmo perceptrón obtiene un mejor
resultado que los almacenados, se actualizan los guardados con el obtenido. De esta
manera, siempre se encontrará una solución, aunque no sea óptima, y se evita la
inestabilidad que provoca el algoritmo perceptrón en problemas linealmente no separables
(Mihaich, 2014).
34
1.8.2 Red neuronal de tipo perceptrón multicapa
Este tipo de red está formado por múltiples capas. Esta propiedad permite resolver una
de las limitaciones del perceptrón simple, resolver problemas que no son linealmente
separables.
Consta de tres tipos de capas:
Capa de entrada: Las neuronas de esta capa reciben los datos de la entrada a la red.
No procesan ni inducen nada, solamente entregan estos datos a la siguiente capa.
Capas ocultas: En estas capas ocurre el procesamiento de la red. Mediante un
sistema de pesos y funciones de transferencia se pasan las salidas de las neuronas hacia
capas posteriores partiendo de las entradas de capas anteriores.
Capa de salida: En esta capa se encuentran las neuronas de salida de la red, que se
corresponden con las clases o categorías que se busca clasificar con la red.
Este tipo de redes tiene como características que las funciones de transferencia de las
neuronas han de ser derivables, una estructura altamente no lineal, una alta tolerancia a
fallos y que el sistema es capaz de establecer una asociación entre dos conjuntos de datos.
Entre sus limitaciones se encuentran, el hecho de que no extrapolan bien, es decir, que si
la red se entrena mal o de manera insuficiente, las salidas pueden ser imprecisas; y que la
existencia de mínimos locales en la función dificulta el entrenamiento, puesto que una vez
que el entrenamiento ha convergido a un mínimo, disminuye la tasa de aprendizaje y bien,
o se detiene, o realiza iteraciones que no contribuyen al aprendizaje, consumiendo
recursos computacionales sin objetivo alguno.
Existen varias alternativas al problema del mínimo local, entre ellas, cambiar la
topología de la red (número de capas y número de neuronas), modificar los parámetros de
aprendizaje, modificar el conjunto de entrenamiento, comenzar el entrenamiento con unos
pesos diferentes o presentar los patrones en otro orden (Mihaich, 2014)(Lizarazo, Mesa
and Cuitiva, 2005).
35
Ante la problemática de la distribución de las neuronas de la capa oculta, existen varios
inconvenientes a la hora de construir una red con muchas capas ocultas y gran cantidad de
neuronas en ellas (Lanzarini and De Giusti, 2002)(Vega, 2011):
Aumento drástico de la carga computacional, ya que implica una mayor dificultad
de implementación en tiempo real y un crecimiento considerable del tiempo de
aprendizaje de la red.
Capacidad de generalización disminuida, puesto que al aumentar la cantidad de
neuronas aumenta el número de pesos sinápticos, por lo que aumenta la cantidad de
parámetros que conforman la red. Esto permite una mejor modelación de los patrones
empleados en el entrenamiento, pero disminuye la capacidad de generalización, puesto
que un patrón no empleado en el entrenamiento del modelo tiene muchas dificultades para
ajustarse a un modelo altamente especializado (Mihaich, 2014).
1.8.3 Red neuronal de Kohonen
Este tipo de redes, conocidas como mapas de auto organización, fueron propuestas por
primera vez por el profesor finlandés Teuvo Kohonen, razón por lo cual son denominadas
en ocasiones redes o mapas de Kohonen (Kohonen, 1982). Contrariamente a las redes
neuronales perceptrón multicapa, no contienen capas intermedias, solo la capa de entrada
y salida. Tienen una propiedad importante: detectan automáticamente relaciones dentro
del conjunto de patrones de entrada a través de un aprendizaje no supervisado (Vera et al.,
2009).
Las redes de auto organización descubren rasgos comunes, regularidades y categorías
dentro de los datos de entrada, y los incorpora a su estructura interna de conexiones. Es
por tanto que se dice que la red se auto organiza en función de los estímulos que proceden
del exterior.
Esta labor se realiza mediante la técnica de “aprendizaje competitivo”, donde cada
neurona de la capa de salida disputa con todas las demás la posibilidad de obtener el
mayor impulso. Así, cuando se presenta un patrón, solo la neurona vencedora, o la
vencedora y sus vecinas, se activan, quedando las demás anuladas. Este aprendizaje
36
persigue el objetivo de categorizar o clasificar los datos que se introducen en la red en
clases o categorías. Se clasifican los estímulos similares en la misma categoría, por lo
tanto, activan la misma neurona de salida (Mihaich, 2014).
El aprendizaje competitivo es una técnica de aprendizaje no supervisado que sirve de
base para varios modelos de redes neuronales. Impulsos parecidos deben ser clasificados
como pertenecientes a una misma clase mediante un proceso de búsqueda de categorías
que la red realiza de forma independiente (García, 2013).
Cada neurona de la capa de entrada está asociada con todas las neuronas de las capas de
competición mediante los pesos sinápticos adaptativos. Las neuronas de la capa de
competición, además de recibir los datos ponderados procedentes de la capa de entrada,
tienen conexiones laterales con el resto de las neuronas de la capa y una conexión
excitatoria consigo misma. Las conexiones existentes entre las neuronas de la capa de
competición son fijas y permiten que, mediante la conexión autoexcitante, la neurona con
más activación se refuerce a sí misma, e inhiba con mayor fuerza a las demás neuronas de
la capa (Mihaich, 2014).
Por tanto, el proceso competitivo es aquel en que cada neurona busca reforzarse a sí
misma a la vez que trata de inhibir la activación de las demás. Este proceso continúa hasta
que la red se estabiliza. En ese momento, la neurona ganadora es la salida deseada.
Imagen 4. Mapa auto organizado. En este caso la zona azul es la distribución de los datos de
entrenamiento y el disco blanco en esa zona es el ejemplo actual en entrenamiento.
37
Conclusiones del capítulo:
Las redes neuronales presentan varias ventajas sobre otros tipos de clasificadores.
Poseen aprendizaje adaptativo, puesto que aprenden con la experiencia; tienen una alta
tolerancia a fallos, ya que, al destruir una porción de la red, los resultados van a ser
seguramente erróneos, pero sería capaz de seguir funcionando, y tienen un alto poder de
cómputo en tiempo real, puesto que las neuronas y sus operaciones pueden ser modeladas
en paralelo.
Por todo lo anteriormente expuesto, las RNAs destacan en el proceso de clasificación
de imágenes. Al ser clasificadores no paramétricos, no se requiere que los datos sigan una
distribución normal, puesto que, por ejemplo, para una imagen determinada, el vector de
rasgos pudiera expresar datos que para otra imagen podrían resultar incoherentes, o
incluso no existir. Esta gran adaptabilidad hace idóneo el empleo de las RNAs en
problemas de clasificación de imágenes aéreas en la agricultura de precisión, precisamente
debido a la alta variabilidad presente en las fotografías aéreas.
38
CAPÍTULO 2: MATERIALES Y MÉTODOS
En este capítulo, el autor aborda los métodos y principales materiales empleados en la
solución del objetivo. Así mismo, se hace una reseña histórica del proceso de clasificación
de imágenes aéreas y luego el mismo proceso empleando redes neuronales artificiales.
2.1 Antecedentes de la clasificación de imágenes aéreas con redes neuronales
En este epígrafe, el autor realiza una revisión bibliográfica sobre los principales trabajos
realizados orientados a la clasificación de imágenes aéreas en la agricultura de precisión, y
particularmente, a la clasificación de imágenes empleando redes neuronales artificiales.
2.1.1 Clasificación de imágenes aéreas en la agricultura de precisión
Casi desde el mismo momento en que los hermanos Wright se aventuraron a la
conquista del cielo, se han tomado fotografías de la superficie de la tierra. Diferentes fines
han movido esta labor, desde lo militar, pasando por lo científico hasta la toma de
fotografías amateur. Estas imágenes luego hay que procesarlas, pues no toda la información
contenida es útil. A continuación, se detallan algunos de los trabajos que hablan de la
clasificación de imágenes aéreas en la agricultura de precisión.
1. En el Boletín Bimensual ICT Update, auspiciado por el Centro Internacional de la
Papa, con sede en Lima, Perú, en su edición 82, publicada en abril de 2016, se publican
varios artículos que tratan de la clasificación de imágenes aéreas provenientes de vehículos
aéreos no tripulados (Greenwood et al., 2016).
Entre ellos, un artículo titulado Pioneros de los drones en Sri Lanka, del autor Salman
Siddiqui, en el que, el instituto Internacional del Manejo del Agua (IWMI), en Sri Lanka,
está empleando la tecnología de los drones para apoyar una amplia gama de estudios, como
monitoreo de cultivos, mitigación de desastres y prevención de enfermedades. Por ejemplo,
se usaron los colores RGB y los sensores de infrarrojos cercanos (NIR) para tomar
imágenes de los arrozales. Estas tecnologías tienen el potencial de ayudar a los agricultores
a detectar campos bajo estrés hídrico y ayudarlos a identificar las zonas de baja altura
propensas a estancamientos.
39
El IWMI también prepara iniciativas con drones en Nepal para mapear manantiales de
agua dulce usando un sensor térmico. El sensor térmico acondicionado en el dron puede ver
a través de la densa capa arbórea y encontrar esos manantiales, ya que su temperatura es
más baja que la de la tierra y la vegetación que los rodea.
Otro de los artículos de la citada revista, tiene como nombre Mirando desde arriba los
sistemas de riego de África,del autor Keith Cressman. En el mismo, la tecnología de los
drones proporciona a los agricultores un método rentable para la planificación de la
infraestructura. En Nigeria, ha acelerado la planificación, el diseño y la construcción de los
sistemas de riego de los arrozales. El agua es un factor decisivo para la autosuficiencia de
arroz en África. La mayoría de las plantaciones de arroz aquí son de secano, es decir,
dependiente de los regímenes de lluvia. La falta de infraestructura de riego es el obstáculo
principal para aumentar la producción de arroz en el continente. El continente negro, como
se le conoce, es el más necesitado, en cuanto a cantidad de habitantes por calidad de vida,
de un recurso tan importante como el agua, que escasea tanto en la mayor parte de la
región. Es por tanto de vital importancia hacer un uso adecuado y evitar el derroche de cada
gota del preciado líquido, tarea en la que ayudan los drones para planificar el mejor trazado
de los sistemas de riego. Y eso no es todo. Después de la etapa de planificación, el dron
ayuda a los agricultores a planificar de modo más preciso la cantidad de fertilizante y
materiales de siembra que se necesitarán para la temporada de crecimiento. Con ayuda de
los drones agrícolas, África puede dar el salto al campo en creciente desarrollo de la
agricultura de precisión.
Otro de los artículos consultados, lleva por nombre Drones que cuentan cocos¸ de los
autores Ephraim Reynolds y Faumuina Felolini Tafuna’i. En las islas de Samoa, del
Pacífico Sur, una de las principales actividades económicas, si no la principal, es la
exportación de los productos derivados del cultivo del coco. Sin embargo, tras décadas de
explotación, las plantaciones se acercan al fin de su vida. Por tanto, se hace necesario el
pronosticar y diagnosticar el ciclo de vida de los cocoteros, para garantizar que al ocurrir la
muerte de una planta ya exista una de reemplazo en condiciones de producir. Además,
estimando la edad de las palmeras en cada propiedad de los agricultores, se puede
pronosticar el rendimiento y producción del aceite de coco virgen, evaluando la factibilidad
40
de futuros proyectos empresariales y haciendo estimaciones más precisas de las ganancias
anuales esperadas.
2. En el año 2014 en la Revista de Teledetección, de la Asociación Española de
Teledetección se publica un artículo con el nombre de ¨Detección de malas hierbas en
girasol en fase temprana mediante imágenes tomadas con un vehículo aéreo no tripulado¨,
de los autores Peña, J.M; Torres-Sánchez, J; Serrano-Pérez, A; López-Granados, F.
En dicho artículo se emplea un algoritmo de clasificación de imágenes basado en
objetos, el cual se divide en dos fases principales: 1) detección de líneas de cultivo y 2)
clasificación de cultivo, malas hierbas y suelo desnudo (Peña et al., 2014).
3. En el año 2015, en la Universidad de Cundinamarca, en la Universidad Nacional
Abierta y a Distancia y en la Universidad Distrital Francisco José de Caldas en Bogotá,
Colombia, se presentó un artículo titulado Drones Aplicados a la Agricultura de Precisión,
de los autores Adrián González, Gelberth Amarillo, Milton Amarillo y Francisco
Sarmiento.
En este artículo se presentan los drones como una tecnología de ayuda a los múltiples
procesos de la agricultura, a captar información importante y a evaluar las condiciones en
terrenos monitoreados, gracias a sus grandes ventajas para sobrevolar los campos y
cultivos.
Mediante las imágenes tomadas con los drones se pueden generar diagnósticos que
permiten diversas operaciones, tales como, gestiones hídricas, fertilizantes, detección de
enfermedades y cosechas selectivas que, a su vez, dan paso a la producción de mapas
agronómicos los cuales representan claramente los problemas y los avances de los cultivos
(Amarillo, Amarillo and Sarmiento, 2015).
4. En el año 2015, en la Universidad de Pamplona, en Santander, Colombia, se
presenta un artículo con título “Uso de drones para el análisis de imágenes multiespectrales
en agricultura de precisión”, por los autores Jemay Mosquera, Viviana Berrio y Diego
Alzate.
En el mismo se presentan las ventajas de la utilización de los vehículos aéreos no
tripulados como una alternativa al proceso de planificación de las actividades agrícolas, la
41
predicción de daños y la toma de decisiones adecuadas ante situaciones que afectan el
desarrollo de los cultivos de papa (Berrío, Mosquera and Alzate, 2015).
2.1.2 Clasificación de imágenes aéreas en la agricultura de precisión empleando
redes neuronales artificiales
Las redes neuronales han sido empleadas en procesos de clasificación casi desde sus
mismos orígenes. A continuación, se presenta una breve reseña de los artículos consultados
por el autor.
1. En el año 2017, en el Instituto Politécnico Nacional, de la Ciudad De México, se
presenta un artículo titulado: Clasificación de Imágenes Urbanas Aéreas: Comparación
entre Descriptores de Bajo Nivel y Aprendizaje Profundo, de los autores Antonio Artista-
Jalife, Gustavo Calderón-Auza, Atoany Fierro-Radilla y Mariko Nakano.
En este artículo, si bien no está dirigido al ámbito de la agricultura de precisión, se
realiza una comparativa entre dos métodos de clasificación, los descriptores de bajo nivel
montados en una máquina de soporte vectorial y el aprendizaje profundo (deep learning),
que, aunque no está dentro de la categoría de las redes neuronales, es otro de los
paradigmas de la Inteligencia Artificial (Arista et al., 2017).
2. En el año 2014, en el Instituto Politécnico Nacional, de la Ciudad de México, se
presenta la Tesis: Aplicación de redes neuronales para la identificación de objetos en
tiempo real en imágenes tomadas por un quadrotor, del Ingeniero Gerardo Hernández
Hernández.
En este artículo, se proponen e implementan un conjunto de técnicas para la
identificación de objetos en tiempo real con el objetivo de posibilitar el uso de herramientas
como son los drones de tipo quadrotor para tareas como la vigilancia. Para ello, se realiza
una comparación entre diferentes tipos de clasificadores estadísticos y redes neuronales
(Hernández, 2014).
3. En el año 2016, en el Centro de Investigación y Desarrollo Tecnológico, en
Morelos, México, se presenta el artículo: Clasificación de patrones mediante una red
neuronal pulsante, de los autores Christian Hernández-Becerra y Manuel Mejía-Lavalle.
42
En este se propone el estudio de un paradigma relativamente nuevo en el mundo de las
redes neuronales, las redes neuronales pulsantes, las cuales, mediante funciones
matemáticas más complejas, emulan de una mejor forma la actividad de las neuronas
biológicas humanas.
Se muestra como, con el uso de una sola capa de neuronas pulsantes, más aún, con una
sola neurona, es posible hacer una clasificación de patrones, ya sea de una función binaria
como la función XOR o bien de una base de datos de cientos de características. Los
resultados son alentadores (Hernández and Mejías, 2016)
4. En el año 2014, en la Universidad Nacional de Córdoba, en Argentina, se presenta
la Tesis: Aplicaciones de redes neuronales en la clasificación de imágenes, de la autora
Florencia Mihaich.
En ese trabajo se expone un marco teórico sobre la categorización de imágenes digitales,
y sobre la estructura y funcionamiento de las redes perceptrón multicapa y SOM (Self-
Organized Maps), o redes de Kohonen (Mihaich, 2014).
5. En el año 2010, en la Universidad Politécnica de Valencia, en España, se presenta la
Tesis: Técnicas de extracción de características y clasificación de imágenes orientada a
objetos aplicadas a la actualización de bases de datos de uso del suelo, del autor Jorge Abel
Recio Recio.
En ella se abordan varios descriptores para la elaboración de un software dirigido a
actualizar automáticamente una base de datos de ocupación del suelo. Entre ellos se
enfatiza en el empleo de las redes neuronales por su potencial en la clasificación de
imágenes (Recio, 2010).
2.2 Descripción de los materiales y métodos empleados
En este epígrafe el autor expone una explicación acerca de los principales materiales y
métodos empleados en la resolución del problema planteado.
2.2.1 Dispositivo de cálculo
Todo el proceso, que va desde el procesamiento de las imágenes hasta el entrenamiento
y evaluación de las redes, se realizó en una computadora con procesador Intel TM Core(R)
i3- 2370M, con 2.40 GHz como frecuencia máxima del reloj y 3 MB de caché de L3. El
43
equipo también cuenta con 4 GB de RAM y 465,76 GB de almacenamiento masivo en
disco duro.
2.2.2 Base de conocimiento
Para entrenar la primera red se utilizaron 2060 imágenes. Se distribuyen en 1096
imágenes de la clase no caña y 964 en la clase caña. Para su evaluación se emplean 100
elementos de la clase no caña y 100 elementos de la clase caña. Las imágenes fueron
tomadas a diferentes alturas, tomándose muestras representativas de cada altura para que la
red aprenda a reconocerlas.
Para entrenar la segunda red se emplearon 50 imágenes pertenecientes a la clase caña
madura y 50 imágenes pertenecientes a la clase caña verde. Para su posterior evaluación se
utilizaron 18 imágenes de la clase caña verde y 10 de la clase caña madura.
Las dimensiones de las imágenes procesadas son de (200 x 280 x 3), teniendo los tres
canales RGB con información. Se hizo de esta forma para que el procesamiento fuera
mejor, puesto que al aumentar el tamaño de la ventana se incluye más heterogeneidad
dentro de la imagen, y por la forma en que se extraen los rasgos de las imágenes pudiera
conducir a errores de clasificación.
A cada una de las imágenes se le realizó un proceso de mejora del histograma
empleando el algoritmo CLAHE (Contrast-limited adaptative histogram equalization). La
ecualización adaptativa del histograma mejora el contraste de la imagen, y difiere de la
ecualización del histograma ordinaria en que computa varios histogramas, donde cada uno
corresponde a una región distinta de la imagen. La ecualización adaptativa del histograma
en su forma original tiende a amplificar el contraste en regiones homogéneas de la imagen,
porque el histograma está altamente concentrado en esas regiones, haciendo que se
amplifique el ruido. La ecualización adaptativa del histograma limitada por contraste es una
variante en la que la ecualización de contraste está determinada por la pendiente de la
función de transformación. El CLAHE limita la amplificación al recortar el histograma en
un valor predefinido. El valor al que se recorta el histograma, llamado límite de clip,
44
depende de la normalización del histograma y, por lo tanto, del tamaño de la región de
vecindad. La función que realiza esta tarea es adapthisteq.
Una muestra de la aplicación de esta función es:
Imagen 5. Imagen mejorada con el algoritmo CLAHE
2.2.3 Entorno de Desarrollo Interactivo (IDE)
El software empleado para el manejo y procesamiento de las imágenes y las redes
neuronales es el MatLab (Matrix Laboratory). Es un software matemático que proporciona
un entorno de desarrollo interactivo con un lenguaje de programación propio, el lenguaje
M.
El software tiene, entre sus prestaciones básicas el trabajo con matrices, la operación y
representación de funciones, la creación de interfaces gráficas de usuario (GUI, Graphic
User Interface). Además, las prestaciones del software se pueden ampliar con la instalación
de toolboxes, que son colecciones de códigos especializados por categorías (Goering,
2004).
En el caso que ocupa esta tesis, los principales toolboxes empleados son:
El Neural Network Toolbox, que provee algoritmos, modelos pre entrenados y
aplicaciones para crear, entrenar, visualizar y simular redes profundas y poco profundas. Se
45
puede realizar clasificación, regresión, clustering, reducción de dimensionalidad,
pronósticos de series de tiempo y control y modelado de sistemas dinámicos.
El Computer Vision Toolbox, que provee algoritmos, funciones y aplicaciones para
simular la visión por computador y los sistemas de procesamiento de video. Permite
realizar detección de características, extracción y comparación. También posibilita la
detección y el seguimiento de objetos.
El Image Processing Toolbox, proporciona un set global de algoritmos de referencia
estándares para el procesamiento, análisis, visualización de imágenes y desarrollo de
algoritmos. Permite realizar segmentación de imágenes, mejora de imágenes, reducción de
ruido, transformaciones geométricas, registración de imágenes y procesamiento de
imágenes 3D.
También se empleó para el manejo del volumen de datos y trabajo con redes neuronales
el software Waikato Environment for Knowledge Analysis (WEKA). Este software es una
plataforma para el aprendizaje automatizado y la minería de datos. Está escrito en lenguaje
Java (Holmes, Donkin and Witten, 1994).
Entre sus prestaciones se tienen el procesamiento estadístico de grandes volúmenes de
datos, la creación y simulación de algoritmos de aprendizaje automático.
Weka también soporta varias tareas estándares de minería de datos, incluyendo el
preprocesamiento de datos, el clustering, la clasificación, la regresión, etc. Weka también
proporciona acceso a base de datos vía SQL gracias a la JDBC (Java Database
Connectivity) y puede procesar el resultado devuelto por una consulta hecha a la base de
datos.
2.2.4 Algoritmos empleados
Para la conformación del vector de características de la imagen se consideraron tres
propiedades de las mismas: color, forma y textura.
El vector conformado tiene la forma:
[Características de color, Características de forma, Características de textura].
46
Extracción de rasgos de color
Para procesar los rasgos de color se diseñó la función extractColorFeatures. Esta
función recibe como parámetros una imagen en RGB. Primeramente, se guardan en tres
variables, RHist, GHist, BHist, el histograma de cada canal representado en 255 bins.
Luego se crean tres variables denominadas NRHist, NGHist, NBHist, asociadas con los
histogramas de cada canal, que van a guardar la información de cada histograma procesado.
Posteriormente, se recorren cada uno de los histogramas, y si el valor en la posición
actual es cero, en la variable asociada al histograma correspondiente se guarda un cero, en
caso contrario, se almacena el valor de la cantidad de píxeles con ese nivel de intensidad
dividido por la suma de los valores de la cantidad de píxeles en la misma posición en cada
uno de los histogramas.
La fórmula empleada es (7):
𝑁𝑋𝐻𝑖𝑠𝑡(𝑖) = {
0, 𝑠𝑖 𝑋𝐻𝑖𝑠𝑡(𝑖) = 0 𝑋𝐻𝑖𝑠𝑡(𝑖)
𝑅𝐻𝑖𝑠𝑡(𝑖) + 𝐺𝐻𝑖𝑠𝑡(𝑖) + 𝐵𝐻𝑖𝑠𝑡(𝑖), 𝑠𝑖 𝑋𝐻𝑖𝑠𝑡(𝑖) ≠ 0
(7)
donde X representa el canal del histograma en análisis actualmente.
Extracción de rasgos de forma
Para la extracción de rasgos de forma, se diseñó e implementó la función
extractShapeFeatures. Esta función recibe como parámetros una imagen en RGB.
Primeramente, se llama la función rgb2gray, que convierte la imagen en una imagen de
intensidad, es decir, en escala de grises. Posteriormente, se extraen los bordes de la imagen
empleando la función edge, con el parámetro canny. Esta función lo que hace es encontrar
los bordes dentro de la imagen empleando el método de Canny. Dicho método consiste en
encontrar bordes buscando los máximos locales del gradiente de la imagen. La función
edge calcula el gradiente usando la derivada de un filtro Gaussiano. La función con el
parámetro canny usa dos umbrales para detectar bordes débiles y fuertes, incluyendo los
bordes débiles si están conectados con bordes fuertes. Usando dos umbrales, el método de
47
Canny es más resistente a un “engaño” por el ruido y más potente para detectar bordes
débiles verdaderos.
Luego, con la imagen obtenida anteriormente, se realiza un complemento. Esto
básicamente lo que hace es mostrar la imagen en negativo. Para que se entienda mejor el
concepto se adjunta una imagen obtenida tras encontrar los bordes y luego la misma imagen
después de complementarla.
Imagen 6. Imagen con bordes detectados (izquierda) e imagen complementaria (derecha).
Luego de tener almacenada la imagen complementaria con los bordes detectados, se
emplea la función regionprops. Dicha función mide las propiedades de las regiones de la
imagen. La función retorna hasta 22 medidas de forma, entre ellas, el área, que es la
cantidad de píxeles que están dentro de la región, el centroide, que es el centro de masas de
la región, la excentricidad, que no es más que la excentricidad de la elipse que tiene el
mismo segundo momento que la región. Este valor oscila entre cero y uno. En el caso de
que sea cero, la elipse es un círculo, y si es uno, la elipse es un segmento.
La función también detecta cinco medidas de valor de los píxeles. Entre ellas, el valor
del píxel con mayor intensidad en la imagen, el píxel de menor intensidad, el valor del píxel
de menor intensidad, el valor promedio de la intensidad de todos los píxeles de la región.
En el caso que ocupa a este trabajo, solo se trabajan las propiedades área, perímetro, el
centro de masas y la excentridad de la elipse que envuelve la región.
48
Luego de tener el área de la región, que como se dijo anteriormente, es la cantidad de
píxeles dentro de la región, y el perímetro, que es la cantidad de píxeles que sirven de
frontera a la región, se calcula la relación CirRatio, que se expresa por la fórmula (8):
𝐶𝑖𝑟𝑅𝑎𝑡𝑖𝑜 =𝐴𝑟𝑒𝑎
𝑃𝑒𝑟𝑖𝑚𝑒𝑡𝑒𝑟2 (8)
Luego se almacena en la estructura de salida de la función el parámetro CirRatio
calculado, el centroide, con sus coordenadas y la excentricidad.
Extracción de rasgos de textura
Para extraer los rasgos de textura, se implementó la función extractTextureFeatures.
Dicha función recibe como parámetro una imagen.
Primeramente, el algoritmo transforma la imagen en una imagen de intensidad. Luego,
aplicando la función graycoprops, se obtienen las propiedades estadísticas de la matriz de
co-ocurrencia de niveles de gris (GLCM, Gray Level Co-occurrence Matrix). Esta matriz se
emplea como descriptor de textura, puesto que en ella se almacenan propiedades
estadísticas que controlan la textura de la imagen. La matriz se calcula controlando cada
cuanto ocurre un píxel con valor de intensidad i en la vecindad de un píxel j. Cada elemento
en la matriz resultante es simplemente la suma la suma del número de veces que el píxel
con valor de intensidad i ocurre en la relación espacial especificada de un píxel con valor j
de la imagen de entrada (Haralick, Shanmugan and Dinstein, 1973).
El número de niveles de gris determina las dimensiones de la GLCM. Dicha matriz
puede revelar ciertas propiedades acerca de la distribución espacial de la textura en los
niveles de grises de la imagen. Por ejemplo, si la mayor parte de las entradas de la GLCM
se concentran cerca de la diagonal, la textura presenta una alta homogeneidad.
Para examinar algunas de las propiedades estadísticas de la textura de la GLCM se
empleala función graycoprops. Dicha función realiza el cálculo implícito de la matriz de
co-ocurrencia, y luego extrae de ella cuatro propiedades estadísticas que describen la
49
textura en la imagen. Dichas propiedades son contraste, correlación, energía y
homogeneidad (Mathworks, 2017).
El contraste, establece la diferencia de la frecuencia entre valores altos y bajos de nivel
de gris. Muchos valores fuera de la diagonal principal de la matriz son indicativos de
valores altos del contraste. La fórmula (9) define el cálculo del contraste:
∑ ∑ (𝑖 − 𝑗)2. 𝑝(𝑖, 𝑗)
𝑁𝑔−1
𝑗=0
𝑁𝑔−1
𝑖=0
(9)
donde Ng es la cantidad de niveles de gris. El contraste es cero para una imagen
constante, es decir, solo un color homogéneo. El contraste también se conoce como
varianza e inercia. El rango del contraste es [0,size(GLCM,1)^2], siendo size(GLCM,1), la
dimensión de la matriz de co-ocurrencia de niveles de gris.
La correlación, retorna una medida de cuan relacionado está un píxel con su vecindario
sobre toda la imagen. La fórmula matemática asociada es (10):
∑ ∑ (𝑖 − 𝜇) ∗ (𝑗 − 𝜇) ∗ 𝜌(𝑖, 𝑗)𝑁𝑔−1𝑗=0
𝑁𝑔−1𝑖=0
∑ ∑ (𝑖 − 𝜇)2 ∗ 𝜌(𝑖, 𝑗)𝑁𝑔−1𝑗=0
𝑁𝑔−1𝑖=0
(10)
La correlación es uno o menos uno para imágenes correlacionadas perfectamente
positivas o perfectamente negativas. La correlación es (NAN, not a number) para imágenes
constantes. La correlación devuelve resultados en el rango [-1,1].
La energía es la propiedad que mide la homogeneidad textural de la imagen. Los valores
más altos corresponden a distribuciones de los niveles de gris constantes, siendo uno para
una imagen constante. Para calcular la energía la fórmula es (11):
∑ ∑ 𝑝(𝑖, 𝑗)2
𝑁𝑔−1
𝑗=0
𝑁𝑔−1
𝑖=0
(11)
50
La energía también se conoce con el nombre de uniformidad, uniformidad de la energía
y segundo momento angular. La energía se mueve por el rango [0,1].
La homogeneidad, es una propiedad que está inversamente relacionada con el contraste.
Valores altos indican que la frecuencia de ocurrencia en la imagen de niveles de intensidad
similares es elevada, discriminando zonas de variación de niveles de gris entre píxeles. La
homogeneidad es uno para una GLCM diagonal, es decir, sin valores fuera de la diagonal
principal. La fórmula para el cálculo de la homogeneidad es (12):
∑ ∑𝜌(𝑖, 𝑗)
1 + |𝑖 − 𝑗|
𝑁𝑔−1
𝑗=0
𝑁𝑔−1
𝑖=0
(12)
La homogeneidad también se conoce con el nombre de momento de diferencia inverso y
presenta valores en el rango [0,1].
Luego de operar con la matriz de co-ocurrencia de niveles de gris, el algoritmo de
extracción de rasgos de textura extrae el patrón binario local (LBP, local binary pattern) de
la imagen. El patrón binario codifica información de textura, de forma que informa de la
relación de cada píxel con sus vecinos. El LBP básico, guarda el valor del bit b de forma:
Imagen 7. Patrón binario local. Adaptado de López, 2016
Así, el patrón binario local es un descriptor de textura invariante a cambios monotónicos
de niveles de gris y a la traslación. El LBP se representa como un histograma normalizado,
51
producto de representar la cantidad de veces que apareció un nivel de gris luego de aplicar
el LBP de la imagen. Se normaliza para representarlo en la escala [0,1].
Posteriormente, se calcula y se guarda en una variable struct el histograma del LBP
representado en 8 celdas (bins), normalizado por la cantidad de elementos del LBP.
Una vez hecho todo esto, se guarda en una estructura de tipo vector la información
extraída a la textura, con la forma: contraste, correlación, energía, homogeneidad, todos
estos valores extraídos de la GLCM, luego cada uno de los valores almacenados en la
variable struct.
Una vez conformados los vectores de rasgos de color, forma y textura, se concatenan en
uno solo para construir el vector de rasgos asociado a la imagen. Dicho vector es el que se
usa como entrada a la red neuronal, y, por tanto, al tener 19 componentes, determina que el
número de neuronas de la capa de entrada de la red neuronal sea 19 .
Para ello se creó la función extractAllFeatures, que internamente lo que hace es invocar
a las funciones extractColorFeatures, extractTextureFeatures y extractShapeFeatures. El
resultado lo concatena en un solo vector.
2.3 Redes neuronales para la clasificación de imágenes aéreas en la agricultura de
precisión
El objetivo del presente trabajo es establecer una comparación entre diferentes
arquitecturas de redes neuronales en la clasificación de imágenes aéreas en la agricultura de
precisión, exactamente en la clasificación de caña de azúcar.
Para ello se crearon tres configuraciones de redes neuronales:
Red neuronal perceptrón simple
Red neuronal perceptrón multicapa
Red neuronal de Kohonen o mapas auto organizados
Para realizar la comparación se crea una red de cada tipo por cada una de las siguientes
tareas:
52
1. Clasificar una imagen en caña u otro objeto.
2. Clasificar una imagen de caña en caña verde o caña madura
Para el entrenamiento de todas las redes neuronales se emplearon las funciones de
Matlab fullfile e imageDatastore. La primera, guarda en una variable una dirección o path,
que en este caso es el origen de las imágenes que sirven de base al entrenamiento y
evaluación. La segunda función, recibe como parámetro el path asociado a la variable
anterior, y con él, crea una estructura que almacena la dirección absoluta de cada imagen.
Además, se pueden crear las etiquetas de las imágenes en base al nombre del directorio en
que se encuentren.
La sintaxis de la función fullfile es la siguiente:
f = fullfile (filepart1, …, filepartN), donde cada filepart es el nombre de una porción del
directorio producto de descomponer la dirección absoluta.
Por ejemplo, en este caso sería:
f = fullfile ('D:', 'Tesis', 'Dataset de imágenes', 'Training');
La sintaxis de la función imageDatastore es la siguiente:
str = imageDatastore (location, name, value), donde location es una dirección de origen
de los datos de imágenes. name y value especifican parámetros adicionales. Estos
parámetros son:
FileExtensions, que son las extensiones de las imágenes. Su valor es un vector de
caracteres. Ejemplo: 'FileExtensions', 'jpg'
LabelSource, origen de las etiquetas asociadas a las imágenes. Su valor es 'none',
que indica que no se etiquetan automáticamente las imágenes y 'foldernames', que indica
que las imágenes deben tener una etiqueta asociada con el nombre del directorio en que se
encuentran.
IncludeSubFolders, que es una bandera para la inclusión de las subcarpetas
presentes en el path, es decir, que se van a incluir todas las imágenes presentes en los
53
subdirectorios de la dirección actual. Su valor es booleano, es decir, true o false, o cero (0)
o uno (1).
El autor considera el empleo de estas funciones por su eficiencia, puesto que, en un
ImageDatastore, lo que reside en memoria es la dirección de la imagen, y en caso de
grandes volúmenes de imágenes, de todas ellas. En el caso de que se desee trabajar con una
o varias imágenes, se leen directamente del ImageDatastore, y solamente se guardan en
memoria las necesarias. Esto evidentemente ahorra recursos computacionales.
Las redes neuronales descritas a continuación son idénticas en cada una de las tareas de
clasificación, solamente cambian los dataset de imágenes. Así, por proporcionar un ahorro
en la extensión solo se describen las redes neuronales para la detección de caña. Las otras
redes evaluadas son idénticas en código, simplemente reciben otros conjuntos de
entrenamiento y evaluación, los correspondientes a caña verde y caña madura.
2.3.1 Red neuronal de tipo perceptrón simple
El primer tipo de red neuronal a analizar es el perceptrón simple. Para ello:
Primeramente, se cargan las imágenes con fullfile e ImageDatastore. Luego se crea una
matriz de características, donde cada una de las filas es el vector de características asociado
a cada imagen. Por tanto, la matriz inicialmente se reserva en memoria empleando la
función zeros y size, que justamente lo que hace es crear una estructura con dimensión
determinada en este caso, por el size del ImageDatastore, es decir, la cantidad de imágenes
archivadas.
Las sintaxis son las siguientes:
[dim, ~]=size (DataSet.Files), donde ~ indica que el segundo valor devuelto por size no
se almacene. En este caso, su valor es uno (1), por tanto, no se requiere.
matrizCaracteristicas = zeros(dim,19), donde dim es el valor calculado anteriormente, y
el 19 es la longitud de cada uno de los vectores de características, como se fundamentó
anteriormente.
A continuación, para cada una de las imágenes presentes en el ImageDatastore, se
calcula el vector de características con la función extractAllFeatures(imagen), donde
54
imagen es la imagen actual obtenida del ImageDatastore con la función readImage. Dicha
función recibe como parámetros un ImageDatastore y un entero positivo, que indica la
posición en el arreglo de direcciones de la imagen actual. Al obtener la imagen, se le
extraen los rasgos y se almacenan en la matriz. Seguidamente, se crea una red neuronal de
tipo perceptron. Se definen los parámetros de entrenamiento con la función net.trainParam,
se establece el número máximo de veces que la red va a iterar sin encontrar un mejor
coeficiente de aprendizaje, con max_fail = 5, se establece la cantidad de épocas a 100. Se
emplea la función dividerand como función de división del dataset. Esta función segmenta
en tres porciones los datos, con sus parámetros por defecto, en entrenamiento deja el 60%
de los datos de origen, en validación un 15% y en evaluación un 15%. Esta división se
realiza de forma aleatoria, no secuencial. Se establece la función de evaluación mse, que es
la función de error del rendimiento de mínimo cuadrático normalizado. Una vez
establecidos los parámetros, se entrena la red con la matriz de rasgos obtenida y las
etiquetas asociadas almacenadas. El entrenamiento se realiza de forma visual para poder
visualizar el progreso. Una vez entrenada la red, se procede a realizar la evaluación de la
red con imágenes de otro dataset. Para ello, se procede de la misma forma que con el
dataset de entrenamiento, se carga el path del dataset de prueba y luego se almacena en un
ImageDatastore las imágenes del dataset de prueba. Luego, se almacenan las etiquetas
asociadas para poderlas comparar con la salida de la red. Para cada una de las imágenes, se
calcula su vector de rasgos y se recibe la salida de la red con ese vector. Esas salidas se
almacenan para el cálculo del error. Una vez finalizado el proceso de salidas de la red, se
guarda en una matriz la confusión devuelta por la red, el porcentaje de falsos negativos, el
porcentaje de falsos positivos, el porcentaje de verdaderos negativos y el porcentaje de
verdaderos positivos.
2.3.2 Red neuronal de tipo perceptrón multicapa
A continuación, el segundo tipo de redes neuronales a analizar es el perceptrón
multicapa. Para ello:
Se carga el dataset de imágenes con las funciones fullfile y ImageDatastore. Se crea una
matriz de características de dimensión size (ImageDataset.Files) * 19 que es el número de
55
rasgos del vector de características y el vector de etiquetas asociadas. Para cada una de las
imágenes del ImageDataset, se extraen los rasgos con la función ExtractAllFeatures, y se
almacenan en la matriz de características. A la misma vez que se carga una imagen con
readImage, se almacena en el vector de etiquetas la etiqueta asociada con el nombre de la
carpeta que contiene la imagen. Posteriormente se crea una red de tipo feedforwardnet.
Esto quiere decir que los resultados de cada capa o nivel se transmitirán a la capa siguiente,
nunca a neuronas de la misma capa o capas anteriores. Se definen las capas o niveles y las
propiedades asociadas. Se crea una capa oculta con 10 neuronas, función de entrenamiento
trainscg, gradiente conjugado escalado. Se entrena la red con la matriz obtenida y las
etiquetas almacenadas. Para medir el rendimiento de la red con otras imágenes, se carga un
dataset de prueba. Para cada imagen se le extraen las características y se guarda en un
vector las salidas de la red. Luego, se guarda en una matriz la confusión devuelta por la
red, el porcentaje de falsos negativos, el porcentaje de falsos positivos, el porcentaje de
verdaderos negativos y el porcentaje de verdaderos positivos.
2.3.3 Red neuronal de Kohonen o Mapa Auto-Organizado
Este tipo de redes basa su funcionamiento en el sistema competitivo, donde cada
neurona busca reforzar su activación en base a los parámetros y disminuir la activación de
las demás neuronas.
Para obtener los resultados, se carga el dataset de imágenes con fullfile e
imageDatastore. En este caso, como el entrenamiento de la red es no supervisado, no se
requieren las etiquetas de clases de las imágenes, por lo que la función imageDatastore no
contiene el parámetro LabelSource. Se crea una matriz para almacenar las características de
cada una de las imágenes, con dimensión size (imageDataset.Files),19. El 19 es la cantidad
de características del vector de rasgos asociado a cada imagen. Para cada una de las
imágenes se calcula su correspondiente vector de características con la función
extractAllFeatures. Luego, por cada uno de los vectores obtenidos, se almacena su
información en la matriz de características. Se crea una red neuronal de tipo competLayer,
que basa su funcionamiento en calcular cada vez que se presenta un ejemplo al sistema, la
distancia euclidiana del mismo a cada uno de los vectores de pesos. La neurona con el
56
vector de pesos con la menor distancia al ejemplo, refuerza sus conexiones, a la vez que
inhibe a las más distanciadas. Así, finalmente, cuando se presente un ejemplo, se activará la
neurona o las neuronas más cercanas en distancia euclidiana al ejemplo. La red
competLayer requiere que se le pase un parámetro que indique la cantidad de clases que se
quieren reconocer dentro de los datos. En el caso que ocupa el presente trabajo esa cantidad
de clases es dos (2), ya sea caña o no caña, o caña verde o caña madura. Se modifican los
parámetros de entrenamiento. En este caso, se establece el número de épocas en 100. Se
entrena la red neuronal con la matriz obtenida. No es necesario proporcionarle el vector de
etiquetas, puesto que el aprendizaje que realiza la red es no supervisado. Para medir el
rendimiento de la red, se carga un dataset completamente nuevo para la red. En este caso sí
se requieren las etiquetas asociadas a las imágenes puesto que se van a comparar con los
resultados devueltos por la red. Así, con fullfile e imageDatastore con el parámetro
LabelSource se almacenan las imágenes del dataset. Para cada una de las imágenes, se
guarda en un vector la salida asociada devuelta por la red. Para calcular el error, se guarda
en una matriz la confusión devuelta por la red, el porcentaje de falsos negativos, el
porcentaje de falsos positivos, el porcentaje de verdaderos negativos y el porcentaje de
verdaderos positivos.
Conclusiones del capítulo Varios autores han dedicado sus investigaciones a extender el empleo de clasificadores no
paramétricos como las redes neuronales al campo de la clasificación de imágenes.
El autor propone en este capítulo una metodología para su extensión al campo de la
clasificación de imágenes aéreas en la agricultura de precisión. Se logró construir una
matriz de características para entrenar y evaluar las redes a partir de los rasgos extraídos a
las imágenes aéreas.
57
CAPÍTULO 3: ANÁLISIS DE LOS RESULTADOS OBTENIDOS
En este capítulo se exponen los resultados obtenidos luego del proceso de ejecución de
los métodos propuestos como vía de resolución al problema planteado.
3.1 Detección de caña en imágenes aéreas
En el caso de la detección de caña, se obtuvieron los siguientes resultados:
1. Pre-procesamiento de las imágenes: Las imágenes iniciales fueron seccionadas con
una ventana de 280x200 píxeles (px), obteniendo un total de 2160 sub-imágenes.
Seguidamente, a cada una de estas sub-imágenes se le realizó un proceso de mejora del
histograma, con el fin de resaltar las características de las imágenes para una mejor
realización del proceso de la extracción de rasgos. Luego de concluido este proceso se
construyeron dos conjuntos de imágenes para el trabajo con las redes neuronales: el de
entrenamiento y el de evaluación. En cada uno de estos conjuntos se confeccionaron dos
sub-conjuntos, el primero asociado a imágenes con ausencia de caña y el segundo a
imágenes con presencia de la caña.
2. Extracción de rasgos: Para cada una de las imágenes del conjunto de entrenamiento
se realizó un proceso de extracción de rasgos, obteniendo una matriz donde cada fila
contiene los 19 rasgos asociados a cada imagen. De igual modo se construyó un arreglo de
etiquetas para el entrenamiento de las redes neuronales de aprendizaje supervisado,
obteniéndose un vector donde cada posición representa la clase asociada con la imagen
correspondiente. Este proceso se realizó también a cada una de las imágenes del conjunto
de evaluación.
3. Clasificación: Se construyeron tres redes neuronales que responden a las tres
topologías propuestas para su comparación:
De la arquitectura perceptrón simple se creó una red de tipo perceptron.
De la topología perceptrón multicapa se creó una red de tipo feedforward.
De los mapas auto organizados se creó una red de tipo selforgmap.
58
Posterior a la creación de cada una estas redes se llevó a cabo el proceso de
entrenamiento, ejecutado 1000 veces con los rasgos y las etiquetas obtenidas del conjunto
de entrenamiento y evaluado luego de cada entrenamiento con los datos del conjunto de
evaluación, almacenando los resultados en cada una de sus ejecuciones (Ver anexo 1). Cada
una de estas redes realiza una auto evaluación de su aprendizaje con una porción, el 30% de
los datos de entrenamiento. Luego del proceso de entrenamiento se obtienen redes
neuronales entrenadas capaces de clasificar una imagen y detectar si hay presencia o no de
caña.
4. A estos resultados se les comprobó si su distribución era normal para aplicarle
pruebas paramétricas. Con el software IBM SPSSal aplicarle una prueba de Kolmogórov-
Smirnov, la significación asintótica es 0 para todos los datos, rechazando la hipótesis nula y
concluyendo que los datos no seguían una distribución normal.
Prueba de Kolmogorov-Smirnov para una muestra
confusión fn Fp vn vp
N 3000 3000 3000 3000 3000
Parámetros
normalesa,b
Media ,4140 33,6995 33,6995 49,6338 49,6338
Desviación típica ,27317 28,12114 28,12114 32,37472 32,37472
Diferencias más
extremas
Absoluta ,283 ,292 ,292 ,409 ,409
Positiva ,227 ,292 ,292 ,409 ,409
Negativa -,283 -,243 -,243 -,241 -,241
Z de Kolmogorov-Smirnov 15,513 15,967 15,967 22,401 22,401
Sig. asintót. (bilateral) ,000 ,000 ,000 ,000 ,000
a. La distribución de contraste es la Normal.
b. Se han calculado a partir de los datos.
Por tanto, se les aplicó una prueba no paramétrica para determinar si existían diferencias
significativas entre las medias de cada grupo. En este caso se aplicó una prueba para varias
muestras independientes, específicamente la prueba H de Kruskall-Wallis.
59
Estadísticos de contrastea,b
confusión Fn fp Vn vp
Chi-cuadrado 2849,728 2844,474 2844,474 2844,474 2844,474
Gl 2 2 2 2 2
Sig. asintót. ,000 ,000 ,000 ,000 ,000
a. Prueba de Kruskal-Wallis
b. Variable de agrupación: grupo
La significación asintótica es cero, lo que deriva en que se rechace la hipótesis nula, y, por
tanto, se arriba a la conclusión de que, al menos una de las medias tiene una diferencia
significativa con respecto al resto.
Para identificar la media del grupo que difiere del resto se emplea la prueba U de Mann-
Whitney (Ver anexo 4) y se determinó que existían diferencias significativas entre todas las
medias de los grupos de datos. En ese caso, se puede emplear un estimador puntual para
determinar el rendimiento de cada una de las redes. Para eso, se calculó la media de cada
uno de los grupos de datos y se representaron en un gráfico detallado a continuación.
Donde uno (1) representa el porcentaje de falsos negativos, dos (2) representa el
porcentaje de falsos positivos, tres (3) representa el porcentaje de verdaderos negativos y
cuatro (4) el porcentaje de verdaderos positivos.
60
Gráfico 1. Media aritmética del porcentaje de los errores de clasificación en la detección de caña
El promedio del procentaje de falsos negativos y falsos positivos de las redes multicapa
es sustancialmente menor que el promedio de clasificación de las otras dos redes. A la
misma vez, las medias de los porcentajes de clasificación correcta son mucho mayores que
los promedios de clasificación correcta de las otras dos redes. Por tanto, se arriba a la
consecuencia de que para la detección de la caña la mejor arquitectura de redes neuronales
es la de perceptrón multicapa.
3.2 Clasificación de los estadios de la caña
En el caso de la clasificación de la caña en verde o madura, los resultados fueron los
siguientes:
1. Pre-procesamiento de las imágenes: Las imágenes iniciales fueron seccionadas con
una ventana de 280x200 píxeles (px), obteniendo un total de 128 sub-imágenes.
Seguidamente, a cada una de estas sub-imágenes se le realizó un proceso de mejora del
histograma, con el fin de resaltar las características de las imágenes para una mejor
realización del proceso de la extracción de rasgos. Luego de concluido este proceso se
construyeron dos conjuntos de imágenes para el trabajo con las redes neuronales: el de
4,6
31
4,6
31
95
,36
9
95
,36
9
24
,75
0
24
,75
0
25
,25
0
25
,25
0
71
,71
8
71
,71
8
28
,28
2
28
,28
2
0,000
10,000
20,000
30,000
40,000
50,000
60,000
70,000
80,000
90,000
100,000
1 2 3 4
MEDIA ARITMÉTICA DE LOS ERRORES DE CLASIFICACIÓN EN LA DETECCIÓN DE CAÑA
MultiLayer PerceptronFeedforward
Perceptron simple
Self Organized Map
61
entrenamiento y el de evaluación. En cada uno de estos conjuntos se confeccionaron dos
sub-conjuntos, el primero asociado a imágenes caña verde y el segundo a imágenes de caña
madura.
2. Extracción de rasgos: Para cada una de las imágenes del conjunto de entrenamiento
se realizó un proceso de extracción de rasgos, obteniendo una matriz donde cada fila
contiene los 19 rasgos asociados a cada imagen. De igual modo se construyó un arreglo de
etiquetas para el entrenamiento de las redes neuronales de aprendizaje supervisado,
obteniéndose un vector donde cada posición representa la clase asociada con la imagen
correspondiente. Este proceso se realzó también a cada una de las imágenes del conjunto de
evaluación.
3. Clasificación: Se construyeron tres redes neuronales que responden a las tres
topologías propuestas para su comparación:
De la arquitectura perceptrón simple se creó una red de tipo perceptron.
De la topología perceptrón multicapa se creó una red de tipo feedforward.
De los mapas auto organizado se creó una red de tipo selforgmap.
Posterior a la creación de cada una estas redes se llevó a cabo el proceso de
entrenamiento, ejecutado 1000 veces con los rasgos y las etiquetas obtenidas del conjunto
de entrenamiento y evaluado luego de cada entrenamiento con los datos del conjunto de
evaluación, almacenando los resultados en cada una de sus ejecuciones (Ver anexo 1). Cada
una de estas redes realiza una auto evaluación de su aprendizaje con una porción de los
datos de entrenamiento. Luego del proceso de entrenamiento se obtienen redes neuronales
entrenadas capaces de clasificar una imagen y determinar si la imagen es caña verde o caña
madura.
4. Post-procesamiento estadístico: En la clasificación, para cada ejecución se obtuvo la
confusión de la red neuronal en la clasificación efectuada, así como el porcentaje de fallos y
aciertos de la red, es decir, porcentajes de falsos negativos, falsos positivos, verdaderos
negativos y verdaderos positivos. A estos resultados se les comprobó si su distribución era
62
normal para aplicarle pruebas paramétricas. Con el software IBM SPSS se comprobó que
los datos no seguían una distribución normal al aplicarle una prueba de Kolmogórov-
Smirnov(Ver Anexo 5). Por tanto, se les aplicó una prueba no paramétrica para determinar
si existían diferencias significativas entre las medias de cada grupo. En este caso se aplicó
una prueba para varias muestras independientes, específicamente la prueba H de Kruskall-
Wallis (Ver Anexo 6). Esta arrojó el resultado de que al menos una de las medias tenía una
diferencia significativa del resto. Luego, se comprobaron dos a dos cada uno de los grupos
de datos con la prueba U de Mann-Whitney y se determinó que existían diferencias
significativas entre todas las medias de los grupos de datos. En ese caso, se puede emplear
un estimador puntual para determinar el rendimiento de cada una de las redes. Para eso, se
calculó la media de cada uno de los grupos de datos y se representaron en un gráfico
detallado a continuación.
Donde uno (1) representa el porcentaje de falsos negativos, dos (2) representa el
porcentaje de falsos positivos, tres (3) representa el porcentaje de verdaderos negativos y
cuatro (4) el porcentaje de verdaderos positivos.
Gráfico 2. Media aritmética del porcentaje de error de clasificación de la caña
0,4
02
0,4
02
99
,59
8
99
,59
8
32
,14
3
32
,14
3
17
,85
7
17
,85
7
6,6
21
6,6
21
93
,37
9
93
,37
9
1 2 3 4
MEDIA ARITMÉTICA DEL PORCENTAJE DE ERROR DE CLASIFICACIÓN DE LA CAÑA
MultiLayer PerceptronFeedforward
Perceptron Simple
Self Organized Map
63
El promedio del procentaje de falsos negativos y falsos positivos de las redes multicapa,
aunque es un poco menor que el porcentaje de errores de los mapas auto-organizados, la
diferencia de las medias entre ellas es significativa. Lo mismo ocurre en el caso de los
porcentajes de acierto de las redes, aunque existe poca diferencia entre sus promedios, las
medias de los porcentajes de acierto difieren de forma significativa. Las redes de tipo
perceptrón simple presentan un comportamiento bastante malo en el proceso de
clasificación de la caña de azúcar. Por tanto, se arriba a la consecuencia de que, para la
clasificación de la caña, aunque la topología de los mapas auto-organizados proporciona
buenos resultados, la mejor arquitectura de redes neuronales para este proceso es la de
perceptrón multicapa.
Conclusiones del capítulo: Aunque los mapas auto-organizados presentaron un rendimiento bastante bueno en la
clasificación de los diversos estadios de la caña, no presentan un rendimiento adecuado en
el proceso de detección de la caña. Las redes perceptrón simple presentan un rendimiento
mediocre en ambos procesos, mientras que las redes de tipo perceptrón multicapa
presentaron los mejores resultados en ambos procesos de clasificación, arribándose a la
conclusión de que, en la clasificación de imágenes aéreas en la agricultura de precisión, las
mejores redes aplicables son las redes que respondan a la arquitectura de perceptrón
multicapa.
64
CONCLUSIONES
1. Para el proceso de detección de caña el rasgo que mejor resultados individuales
proporciona es la textura, y para la clasificación de los estadios de caña, el rasgo individual
que mejores resultados arroja es el color. El subconjunto que mejores resultados
proporciona es color-textura.
2. El enfoque basado en redes neuronales es pertinente en la clasificación de imágenes
aéreas, puesto que sus estructuras y algoritmos de aprendizaje las hace idóneas para el
reconocimiento de patrones relacionados con las características de las imágenes aéreas para
la agricultura de precisión.
3. La mejor arquitectura de redes neuronales para la clasificación de imágenes aéreas en
la agricultura de precisión es la arquitectura perceptrón multicapa. El en caso de la
detección de caña las redes de tipo perceptrón multicapa presenta un desempeño de
67,087% superior a la mejor de las otras dos arquitecturas. En el caso de la clasificación de
los estadios de caña, su rendimiento fue de 6,219% superior que la mejor de las otras dos
configuraciones.
65
RECOMENDACIONES
Implementar un software capaz de realizar las clasificaciones de imágenes aéreas en la
agricultura de precisión.
Extender la clasificación de imágenes aéreas en la agricultura de precisión a otros
aspectos relacionados con los cultivos, como la sanidad, la humedad de los suelos, etc.
Continuar con la investigación propuesta, evaluando y sometiendo a análisis de
resultados otras redes neuronales en la clasificación de imágenes aéreas en la
agricultura de precisión.
Realizar una investigación sobre la clasificación de otros tipos de imágenes aéreas
empleando redes neuronales, extendiendo su empleo más allá de la agricultura de
precisión.
66
BIBLIOGRAFÍA
Amarillo, G., Amarillo, M. and Sarmiento, F. (2015) ‘Drones aplicados a la agricultura
de precisión’, pp. 23–38.
Arista, A. et al. (2017) ‘Clasificación de imágenes urbanas aéreas: Comparación entre
descriptores de bajo nivel y aprendizaje profundo’, Informacion Tecnologica, 28(3), pp.
209–224. doi: 10.4067/S0718-07642017000300021.
Baluja, W. (2009) ‘Clasificación automatizada de imágenes para un sistema de filtrado
por contenidos basada en el empleo de redes neuronales’, (February).
Berrío, V., Mosquera, J. and Alzate, D. (2015) ‘Uso De Drones Para El Analisis De
Imágenes Multiespectrales En Agricultura De Precisión’, @limentech, Ciencia y
Tecnología Alimentaria, 13(1), pp. 28–40. doi: 10.24054/16927125.v1.n1.2015.1647.
Blaschke, T., Burnett, C. and Pekkarinen, A. (2004) ‘Image segmentation methods for
object-based analysis and classification’, Remote Sensing Image Analysis, pp. 211–236.
Bustos, O. H. et al. (2004) ‘Técnicas Estadísticas en Teledetección Espacial’.
Chica, M. and Abarca, F. (2000) ‘Computing geostatistical image texture for remotely
sensed data classification’.
García-Cervigón, J. J. (2015) ‘Estudio de Índices de vegetación a partir de imágenes
aéreas tomadas desde UAS / RPAS y aplicaciones de estos a la agricultura de precisión .’,
p. 78.
García, E. and Flego, F. (2009) ‘Agricultura de Precisión’, Tecnología Agropecuaria.
doi: 10.1002/j.2162-6057.1995.tb01399.x.
García, P. (2013) Reconocimiento de imágenes utilizando redes neuronales artificiales.
Universidad Complutense de Madrid.
Goering, R. (2004) ‘Matlab edges closer to electronic design automation world’, EE
67
Times.
Gong, P. and Xu, B. (2004) ‘Contextual image analysis methods for urban applications’,
RSIA, pp. 137–152.
Greenwood, F. et al. (2016) ‘Drones para la agricultura’.
Haralick, R. M., Shanmugan, K. and Dinstein, I. (1973) ‘Texture features for image
classification’, IEEE Trans. Syst. Man Cybern, 3(1), pp. 610–621.
Hay, G. J. and Castilla, G. (2006) ‘Object-based Image Analysis: Strengths, weakness,
opportunities and threaths’.
Hernández, C. and Mejías, M. (2016) ‘Clasificación de Patrones mediante el uso de una
Red Neuronal Pulsante’, 116, pp. 81–91.
Hernández, G. (2014) Aplicación de redes neuronales para la identificación de objetos
en tiempo real en imágenes tomadas por un quadrotor. Instituto Politécnico Nacional.
Holmes, G., Donkin, A. and Witten, I. H. (1994) ‘Weka: A machine learning
workbench’, in Proc Second Australia and New Zealand Conference on Intelligent
Information Systems. Brisbane, Australia.
Huang, X. and Jensen, J. R. (1997) ‘A machine learning approach to automated
knowledge-base building ffor remote sensing image analysis with GIS data’,
Photogrammetric Engineering and Remote Sensing, 63, pp. 1185–1194.
Jensen, J. R. (2005) ‘Introductory digital image processing’, Upper Saddle River:
Pearson Education, Inc.
Kohonen, T. (1982) ‘Self Organized Formation of Topologically Correct Feature Maps’,
Biologics Cybernetics, 43, pp. 56–59.
Lanzarini, L. and De Giusti, A. (2002) ‘Redes Neuronales aplicadas al Reconocimiento
de Patrones’, Workshop de Investigadores en Ciencias de la Computación, (1900), pp. 456–
459. Available at: http://lidi.info.unlp.edu.ar.
68
Lizarazo, I., Mesa, S. and Cuitiva, R. (2005) ‘Redes Neuronales : Bases Matemáticas’,
pp. 589–619.
Mathworks (2017) Matlab(R) Image Processing Toolbox Documentation.
Mihaich, F. (2014) ‘Aplicación de redes neuronales en la clasificación de imágenes’, pp.
1–156.
Peña, J. M. et al. (2014) ‘Detección de malas hierbas en girasol en fase temprana
mediante imágenes tomadas con un vehículo aéreo no tripulado (UAV)’, Revista de
Teledeteccion, (42), pp. 39–47. doi: 10.4995/raet.2014.3148.
Perez, C. and Muñoz, A. L. (2006) Teledetección: Nociones y aplicaciones.
Pinto, A. (2006) ‘Segmentación de imágenes por textura’.
Recio, J. A. (2010) ‘Técnicas de extracción de características y clasificación de
imágenes orientada a objetos aplicadas a la actualización de bases de datos de ocupación
del suelo’, p. 310. doi: 10.4995/Thesis/10251/6848.
Romero, L. and Calonge, T. (2004) ‘Redes Neuronales y Reconocimiento de Patrones.’,
Airene, pp. 1–11.
Ruiz, L. A., Fernández, A. and Recio, J. A. (2004) ‘Texture feature extraction for
classificationof remote sensing data using wavelet decomposition: A comparative study’.
Sluiter, R. et al. (2004) ‘A contextual approach to classify Mediterranean heterogeneus
vegetation using the spatial reclassification kernel (SPARK) and DAIS7915’, RSIA.
Smith, G. M. and Fuller, R. M. (2004) ‘An integrated approach to land cover
classification: an example in the Island of Jersey’, IJRS, 22(16), pp. 123–142.
Treworder, H. (1999) ‘Aerial Photographs and archaeology’, Flying Through
Cornwall´s Past, pp. 1–19. Available at: http://www.historic-
cornwall.org.uk/flyingpast/images/PDF_downloads/Aerial Survey.pdf.
Vargas, E. (2008) ‘Técnicas de procesamiento digital de imágenes e inteligencia
69
artificial para diagnosticar y controlar la incidencia de la Sigatoka Negra en plantaciones de
banano’.
Vega, H. (2011) ‘Redes neuronales para el reconocimiento de la calidad morfológica de
mangos exportables para la empresa Biofruit del Perú S.A.C’.
Vera, H. et al. (2009) ‘Reconocimiento de patrones mediante redes neuronales’.
Weldon, T. P. and Higgins, W. E. (1998) ‘An algorithm for designing multiple Gabor
filters for segmenting multi-textured images’, in IEEE Internacional Conference on Image
Processing, pp. 333–337.
Zarger, R. K. et al. (2008) ‘El origen de la agricultura, la domesticación de plantas y el
establecimiento de corredores biológico-culturales en Mesoamerica’, Revista de Geografía
Agrícola, 41(85), pp. 1–30. doi: 10.1093/acprof.
70
ANEXOS
Anexo 1: Tabla 1. Resultados de las simulaciones de las redes neuronales
Detección de caña
Clasificación de los estadios de caña
Media aritmética
Desviación estándar
Media aritmética Desviación estándar
Confusión Perceptrón simple
0,495 0,000 0,643 0,000
Perceptrón multicapa
0,047 0,011 0,004 0,022
Mapas autoorganizados
0,701 0,002 0,062 0,016
Porcentaje de falsos negativos
Perceptrón simple
24,750 0,000 32,143 0,000
Perceptrón multicapa
4,631 1,074 0,402 2,156
Mapas autoorganizados
71,718 0,129 6,621 1,970
Porcentaje de falsos positivos
Perceptrón simple
24,750 0,000 32,143 0,000
Perceptrón multicapa
4,631 1,074 0,402 2,156
Mapas autoorganizados
71,718 0,129 6,621 1,970
Porcentaje de verdaderos negativos
Perceptrón simple
25,250 0,000 17,857 0,000
Perceptrón multicapa
95,369 1,074 99,598 2,156
Mapas autoorganizados
28,282 0,129 93,379 1,970
Porcentaje de verdaderos positivos
Perceptrón simple
25,250 0,000 17,857 0,000
Perceptrón multicapa
95,369 1,074 99,598 2,156
Mapas autoorganiza
28,282 0,129 93,379 1,970
71
dos
Anexo 2:
Tabla 2 Resultados de la prueba U de Mann-Wittney para el perceptrón multicapa y el perceptrón simple
Estadísticos de contrastea
confusión Fn fp vn Vp
U de Mann-Whitney ,000 ,000 ,000 ,000 ,000
W de Wilcoxon 500500,000 500500,000 500500,000 500500,000 500500,000
Z -41,453 -41,399 -41,399 -41,399 -41,399
Sig. asintót.
(bilateral)
,000 ,000 ,000 ,000 ,000
a. Variable de agrupación: grupo
Tabla 3 Resultados de la prueba U de Mann-Wittney para el perceptrón multicapa y el mapa auto organizado
Estadísticos de contrastea
confusión Fn fp Vn vp
U de Mann-Whitney ,000 ,000 ,000 ,000 ,000
W de Wilcoxon 500500,000 500500,000 500500,000 500500,000 500500,000
Z -40,654 -40,524 -40,524 -40,524 -40,524
Sig. asintót.
(bilateral)
,000 ,000 ,000 ,000 ,000
a. Variable de agrupación: grupo
Tabla 4 Resultados de la prueba U de Mann-Wittney para el perceptrón simple con el mapa auto organizado
Estadísticos de contrastea
confusión Fn fp Vn vp
U de Mann-Whitney ,000 ,000 ,000 ,000 ,000
W de Wilcoxon 500500,000 500500,000 500500,000 500500,000 500500,000
72
Z -43,712 -43,613 -43,613 -43,613 -43,613
Sig. asintót.
(bilateral)
,000 ,000 ,000 ,000 ,000
a. Variable de agrupación: grupo
Anexo 5: Tabla 5 Prueba de Kolmogorov-Smirnov para el conjunto de datos
Prueba de Kolmogorov-Smirnov para una muestra
confusión fn fp vn vp
N 3000 3000 3000 3000 3000
Parámetros normalesa,b Media ,2362 13,0553 13,0553 70,2780 70,2780
Desviación típica ,28902 13,83904 13,83904 37,19844 37,19844
Diferencias más
extremas
Absoluta ,377 ,308 ,308 ,381 ,381
Positiva ,377 ,308 ,308 ,254 ,254
Negativa -,254 -,249 -,249 -,381 -,381
Z de Kolmogorov-Smirnov 20,649 16,844 16,844 20,889 20,889
Sig. asintót. (bilateral) ,000 ,000 ,000 ,000 ,000
a. La distribución de contraste es la Normal.
b. Se han calculado a partir de los datos.
Anexo 6: Tabla 6. Prueba U de Mann-Whitney entre el perceptrón multicapa y el perceptrón simple
Estadísticos de contrastea
confusión Fn fp Vn vp
U de Mann-Whitney 23400,500 27609,000 27609,000 27609,000 27609,000
W de Wilcoxon 523900,500 528109,000 528109,000 528109,000 528109,000
Z -40,323 -39,878 -39,878 -39,878 -39,878
Sig. asintót.
(bilateral)
,000 ,000 ,000 ,000 ,000
a. Variable de agrupación: grupo
73
Tabla 7. Prueba U de Mann-Whitney para el perceptrón multicapa y el mapa auto organizado
Estadísticos de contrastea
confusión Fn fp Vn vp
U de Mann-Whitney ,000 ,000 ,000 ,000 ,000
W de Wilcoxon 500500,000 500500,000 500500,000 500500,000 500500,000
Z -44,237 -44,237 -44,237 -44,237 -44,237
Sig. asintót.
(bilateral)
,000 ,000 ,000 ,000 ,000
a. Variable de agrupación: grupo
Tabla 8. Prueba de Kruskal-Wallis para el perceptrón simple y el mapa auto organizado
Estadísticos de contrastea
confusión Fn fp Vn vp
U de Mann-Whitney 23400,500 27609,000 27609,000 27609,000 27609,000
W de Wilcoxon 523900,500 528109,000 528109,000 528109,000 528109,000
Z -40,323 -39,878 -39,878 -39,878 -39,878
Sig. asintót. (bilateral) ,000 ,000 ,000 ,000 ,000
a. Variable de agrupación: grupo