Clasificación de imágenes aéreas en la agricultura de ...

1

, junio, 2018

Departamento de

Ciencias de la

Computación

Clasificación de imágenes aéreas en la agricultura de precisión

empleando redes neuronales.

Raybel Hernández Regalado

Ing. Joisel Martínez Gómez

MSc. Idileisy Torres Rodríguez

Este documento es Propiedad Patrimonial de la Universidad Central “Marta Abreu” de Las Villas, y

se encuentra depositado en los fondos de la Biblioteca Universitaria “Chiqui Gómez Lubian”

subordinada a la Dirección de Información Científico Técnica de la mencionada casa de altos

estudios.

Se autoriza su utilización bajo la licencia siguiente:

Atribución- No Comercial- Compartir Igual

Para cualquier información contacte con:

Dirección de Información Científico Técnica. Universidad Central “Marta Abreu” de Las Villas.

Carretera a Camajuaní. Km 5½. Santa Clara. Villa Clara. Cuba. CP. 54 830

Teléfonos.: +53 01 42281503-1419

A mis padres

AGRADECIMIENTOS

A mis padres, por haberme inculcado la dedicación suficiente para la realización de este

trabajo.

A mis abuelos, por haberme apoyado en cada una de las vicisitudes que me ha planteado la

vida.

A mis tías, por siempre estar ahí cada vez que las necesito.

A mi hermano, por quien trato cada día de ser una mejor persona.

A Cary, por ser una persona tan importante en mi vida.

A Augusto, una persona que me ha enseñado tanto y que siempre ha confiado en mí.

A Roberto, por su ayuda incondicional, incluso en los momentos en que no tenía tiempo ni

para él.

A Juan Manuel, por las constantes molestias ocasionadas.

A Joisel, por el apoyo brindado.

A Idileisy por las molestias ocasionadas.

A Yohandra y Reinier, por haberme ayudado en un momento difícil de mi vida.

A mis suegros, por la cálida acogida que me han ofrecido en el seno de su familia.

Y, por último, y no menos importante, a Ari, sin cuyo apoyo no habría sido posible la

realización de este trabajo.

RESUMEN

La fotografía aérea es un punto de apoyo para la agricultura de precisión. Sin embargo, la

clasificación de estas imágenes puede ser un proceso complicado y computacionalmente

costoso. En este trabajo proponemos redes neuronales artificiales como una alternativa a los

métodos de clasificación de imágenes.

Las redes neuronales son clasificadores no paramétricos, es decir, no requieren que los

datos de entrada sigan ninguna distribución estadística. Debido a su alto rendimiento en

problemas de clasificación, evaluamos 3 arquitectura de red neuronal para la clasificación

de imágenes aéreas en agricultura de precisión, enfocada en el proceso de clasificación de

la caña de azúcar. Las arquitecturas evaluadas fueron: perceptrón simple, perceptrón

multicapa y mapas auto organizados.

El trabajo actual se enfoca en dos problemas específicos: (1) para detectar la presencia de

caña de azúcar y (2) para clasificar la caña en dos etapas de maduración diferentes.

Según los resultados obtenidos las redes neuronales de perceptrón multicapa muestran un

mayor rendimiento frente a las redes de tipo perceptrón simple y mapas auto organizados.

Palabras clave: imágenes aéreas, agricultura de precisión, redes neuronales.

ABSTRACT

Aerial photography is a point of support for precision agriculture. However, the

classification of these images can be a complicated process and computationally expensive.

In this work we propose artificial neural networks as an alternative to image classification

methods.

Neural networks are nonparametric classifiers, that is, they do not require that the input data

follow any statistical distribution. Due to its high performance in classification problems,

we evaluate 3 neural network architecture for the classification of aerial images in

precision agriculture, focused on the sugarcane classification process. The architectures

evaluated were: simple perceptron, multilayer perceptron and self-organized maps.

Current work is focused in two specific problems:. (1) to detect the presence of sugarcane

and (2) to classify the cane in two different maturation stages.

According to The obtained results the multilayer perceptron neural networks show a greater

performance to in front of the networks of type simple perceptron and Self-Organized

Maps.

Keywords: aerial images, precision agriculture, neural networks.

Tabla de contenido INTRODUCCIÓN .............................................................................................................................. 1

CAPÍTULO 1: FUNDAMENTACIÓN TEÓRICA DE LA CLASIFICACIÓN DE IMÁGENES

AÉREAS EN LA AGRICULTURA DE PRECISIÓN CON REDES NEURONALES..................... 7

1.1 Imágenes digitales ..................................................................................................................... 7

1.1.2 Representación ................................................................................................................... 7

1.1.3 Resolución espacial, resolución espectral y profundidad de color ..................................... 7

1.2 Modelos de color ..................................................................................................................... 10

1.3 Propiedades de la imagen ........................................................................................................ 11

1.4 Imagen aérea ........................................................................................................................... 13

1.4.1 Imágenes aéreas en la agricultura de precisión ................................................................ 14

1.5 Proceso de reconocimiento y clasificación de imágenes ......................................................... 14

1.5.1 Mejoramiento de la imagen .............................................................................................. 14

1.5.2 Representación y descripción ........................................................................................... 15

1.5.3 Reconocimiento de formas ............................................................................................... 15

1.6 Clasificadores de imágenes ..................................................................................................... 15

1.6.1 Métodos de clasificación según la unidad espacial ........................................................ 16

1.6.2 Métodos de clasificación no paramétricos: ...................................................................... 20

1.7 Redes neuronales .................................................................................................................... 21

1.7.1 Elementos y características principales de las RNA .......................................................... 24

1.7.2 Arquitectura de las RNAs .................................................................................................. 27

1.7.3 Aprendizaje de la red ........................................................................................................ 29

1.7.4 Evaluación del aprendizaje de la red ................................................................................ 31

1.8 Redes neuronales en la clasificación de imágenes aéreas en la agricultura de precisión ........ 32

1.8.1 Red neuronal de tipo perceptrón simple .......................................................................... 32

1.8.2 Red neuronal de tipo perceptrón multicapa ..................................................................... 34

1.8.3 Red neuronal de Kohonen ................................................................................................ 35

Conclusiones del capítulo: ............................................................................................................ 37

CAPÍTULO 2: MATERIALES Y MÉTODOS................................................................................. 38

2.1 Antecedentes de la clasificación de imágenes aéreas con redes neuronales ........................... 38

2.1.1 Clasificación de imágenes aéreas en la agricultura de precisión ...................................... 38

2.1.2 Clasificación de imágenes aéreas en la agricultura de precisión empleando redes

neuronales artificiales ................................................................................................................ 41

2.2 Descripción de los materiales y métodos empleados .............................................................. 42

2.2.1 Dispositivo de cálculo ...................................................................................................... 42

2.2.2 Base de conocimiento ....................................................................................................... 43

2.2.3 Entorno de Desarrollo Interactivo (IDE) .......................................................................... 44

2.2.4 Algoritmos empleados ...................................................................................................... 45

2.3 Redes neuronales para la clasificación de imágenes aéreas en la agricultura de precisión . 51

2.3.1 Red neuronal de tipo perceptrón simple .................................................................... 53

2.3.2 Red neuronal de tipo perceptrón multicapa ...................................................................... 54

2.3.3 Red neuronal de Kohonen o Mapa Auto-Organizado ...................................................... 55

Conclusiones del capítulo.............................................................................................................. 56

CAPÍTULO 3: ANÁLISIS DE LOS RESULTADOS OBTENIDOS .............................................. 57

3.1 Detección de caña en imágenes aéreas .................................................................................... 57

3.2 Clasificación de los estadios de la caña................................................................................... 60

Conclusiones del capítulo: ............................................................................................................ 63

CONCLUSIONES ............................................................................................................................ 64

RECOMENDACIONES ................................................................................................................... 65

BIBLIOGRAFÍA ............................................................................................................................... 66

ANEXOS........................................................................................................................................... 70

Anexo 1: ........................................................................................................................................ 70

Anexo 2: ........................................................................................................................................ 71

Anexo 3: ........................................................................................................................................ 71

Anexo 4: ........................................................................................................................................ 71

Anexo 5: ........................................................................................................................................ 72

Anexo 6: ........................................................................................................................................ 72

Tabla de imágenes

Imagen 1. Imagen representada en diferentes resoluciones espaciales ............................................... 8

Imagen 2. Mejoramiento de una imagen aérea .................................................................................. 15

Imagen 3. Clasificadores de contexto. .............................................................................................. 18

Imagen 4. Estructura de una red neuronal para la clasificación de imágenes ................................... 23

Imagen 5. Mapa auto organizado ...................................................................................................... 36

Imagen 6. Imagen con bordes detectados e imagen complementaria. .............................................. 47

Imagen 7. Patrón binario local. ......................................................................................................... 50

Gráfico 1. Media aritmética del porcentaje de error de clasificación en la detección de caña .......... 60

Gráfico 2. Media aritmética del porcentaje de error de clasificación de los estadios de la caña ...... 62

1

INTRODUCCIÓN Uno de los acontecimientos más importantes en la historia humana ha sido el cambio de

una economía sustentada en la caza y la recolección de plantas a una basada en la

agricultura. Diversos estudios sugieren que este cambio se efectuó paulatinamente en por lo

menos seis regiones del mundo, entre los 11.000 y 5.000 antes de nuestra era en áreas

tropicales y subtropicales con alta biodiversidad (Zarger et al., 2008).

Hoy en día, debido al incremento de la población mundial y con la consiguiente

demanda de alimentos que ello supone, la agricultura ha tenido que adaptarse a estas

nuevas exigencias. La introducción de la mecanización y los agroquímicos en la agricultura

han sido uno de los mayores logros del siglo XX.

Si antes se necesitaba de un granjero para alimentar de dos a cinco personas, hoy un

agricultor con tecnología mecánica, agroquímicos y nuevas variedades obtenidas con

biotecnología, es capaz de alimentar hasta a 130 personas. Esto por supuesto, requiere de

un gran consumo energético, fundamentalmente combustibles fósiles.

La agricultura moderna depende enormemente de la tecnología y las ciencias físicas y

biológicas. La irrigación, el drenaje, la conservación y la sanidad, que son vitales para una

agricultura exitosa, exigen el conocimiento especializado de ingenieros agrónomos. La

química agrícola, en cambio, trata con la aplicación de fertilizantes, insecticidas y

fungicidas, la reparación de suelos, el análisis de productos agrícolas, etc. (Zarger et al.,

2008).

A lo largo de los últimos años ha aumentado el interés y la necesidad de disponer de una

información de usos y coberturas del territorio, fiable y actualizada, siendo numerosos los

proyectos de carácter local, nacional e internacional cuyo objetivo es la creación y

actualización de bases de datos de usos y ocupación del suelo. Los procedimientos

metodológicos para llevar a cabo estas tareas requieren un alto grado de intervención

humana, ya que están basados casi íntegramente en la interpretación de imágenes o su

comparación con otras imágenes u otra base de datos. Los recientes avances en la calidad

2

de los sensores, tanto aerotransportados como espaciales, y en su cantidad, han supuesto un

incremento significativo en la disponibilidad de imágenes de alta resolución (Recio, 2010).

El empleo de la teledetección, cada vez más extendido para el análisis y gestión de los

recursos naturales, se encuentra condicionado por las limitaciones en cuanto a resolución

espacial, espectral y temporal de las imágenes disponibles. La llegada al mundo civil de los

vehículos aéreos no tripulados, conocidos por las siglas UAV (Unmanned Aerial Vehicle) o

RPAS (Remotely Piloted Aircraft System), junto con los avances en el desarrollo de micro

sensores, posibilita un nuevo concepto de Teledetección de Alta Resolución donde se

pueden superar ciertas limitaciones en los tres niveles de resolución (espacial, espectral y

temporal), siendo además una solución económicamente viable en superficies de cierto

tamaño. Su empleo está determinado por las necesidades de ciertos sectores. Son

ampliamente utilizados en investigaciones sobre arqueología, ecosistemas, monitoreo de

flora y fauna, estudios climatológicos, estudios urbanos e impacto medioambiental. Tiene

otros usos, tanto en el campo civil como en el militar, por ejemplo, la discriminación de los

suelos y otros estudios agronómicos.

La agricultura de precisión es una tecnología de importante ayuda para el trabajo

agrícola. Se basa en el análisis de la variabilidad entre parcelas de factores abióticos (suelo,

drenajes, estrés hídrico) y bióticos (malas hierbas, plagas, hongos, cosecha) existentes en

los campos de cultivo. Para ello se emplean, entre otras técnicas, fotos aéreas, satelitales y

digitalizadas, permitiendo observar los cultivos durante el desarrollo del mismo,

identificando y ubicando al unísono, aquellos ambientes o sectores con problemas que

requieran una rápida atención, ya que su objetivo es diferenciar subparcelas o zonas de

manejo para la aplicación localizada variable. Los resultados de la implementación de estas

técnicas permiten relacionar aspectos del cultivo y/o del suelo con cuestiones de gestión, no

solo teniendo en cuenta el ajuste de las dosis o mezclas de fertilizantes, sino también todos

los aspectos agronómicos que pueden tener, solos o combinados, repercusión en el

resultado económico de los cultivos. Con esta tecnología se puede minimizar el impacto

ambiental de la agricultura, reduciendo las cantidades de agroquímicos aplicadas sin que

esto signifique reducir la producción, llegando a una agricultura más eficiente, con menores

costos de producción (García and Flego, 2009).

3

La clasificación de imágenes es un procedimiento utilizado en cartografía, astronomía,

diagnósticos médicos, entre otros. Este procedimiento, se basa en la extracción de ciertas

características comunes en una categoría de imágenes, para su posterior clasificación en

una de las distintas clases posibles.

El proceso de extracción de características estará orientado a la manipulación de

imágenes digitales. Hay características que no son percibidas a simple vista, pero que están

implícitamente dentro de las imágenes con las que se trabajan, para detectarlas se

emplearán técnicas de extracción de rasgos, que extraen dicha información.

Las tareas de investigación desarrolladas en torno al estudio de redes neuronales

artificiales, o simplemente redes neuronales, están determinadas a modelar la forma de

procesar la información por sistemas nerviosos biológicos, especialmente, por el cerebro

humano.

El cerebro humano funciona de forma totalmente diferente a un medio de cómputo

digital convencional. El cerebro funciona con un sistema altamente complejo, no lineal y

paralelo, motivado principalmente por actividad eléctrica y bioquímica. El mismo es capaz

de realizar varias tareas de forma simultánea (Lizarazo, Mesa and Cuitiva, 2005).

Las redes neuronales proporcionan un método alternativo de clasificación de imágenes.

Una red neuronal está construida por un conjunto de unidades sencillas de procesamiento

llamadas neuronas. Se caracteriza por adquirir el conocimiento a través de la experiencia;

demostrar flexibilidad de adaptación frente a las variaciones del entorno; exponer una

inmensa plasticidad, evidente en su capacidad para responder correctamente frente a un

estímulo nunca antes visto; poseer un alto nivel de tolerancia a fallos; y lograr una alta tasa

de computabilidad basada en su masivo paralelismo. Debido a las propiedades antes

mencionadas, las neuroredes se han convertido en una herramienta de gran contribución

para obtener soluciones de aquellos problemas de los que se desconoce a priori el algoritmo

para su resolución (Mihaich, 2014).

4

Áreas como el reconocimiento de patrones plantean situaciones de estas características.

En particular, la clasificación de imágenes digitales, basada en procedimientos que

incorporen redes neuronales artificiales, es el objetivo de estudio del presente trabajo.

Actualmente se conocen numerosos métodos para la categorización de imágenes con un

excelente rendimiento computacional, pero estos se encuentran sujetos a precondiciones

respecto a los datos de entrada. Contrariamente, las redes neuronales son descritas como no

paramétricas, es decir, no dependen de una distribución estadística de la información de

entrada. Durante la fase de entrenamiento, la red asimila las regularidades presentes en los

datos incorporados y construye reglas que se pueden extender a los datos desconocidos.

Numerosos autores se han dedicado a categorizar imágenes aéreas empleando redes

neuronales. Recio (2010) propone varios clasificadores orientados a la tarea de actualizar

automáticamente una base de datos de usos de suelo. Para ello emplea redes neuronales y

árboles de decisión. Hernández (2014) emplea redes neuronales para clasificar imágenes

aéreas tomadas por un quadrotor.

Las imágenes aéreas son cada vez más populares en nuestros días. Por esta razón el

GARP (Grupo de Automatización, Robótica y Percepción) de la Universidad Central

“Marta Abreu” de las Villas (UCLV) ha realizado vuelos de reconocimiento sobre

superficies cultivadas con caña de azúcar en los que se han obtenido varias imágenes. Sin

embargo, limitarse únicamente a obtener imágenes no es suficiente mientras exista la

necesidad de realizar clasificaciones de diferentes elementos que componen a la propia

imagen, para así poder diferenciar los objetos de interés de la información poco útil. Esta

necesidad hizo posible el surgimiento de la presente tesis como respuesta a la situación

problémica descrita y su presencia en el sector agropecuario, contexto que no debe

mantenerse alejado de la era de la informatización y el uso de las tecnologías como medio

muy efectivo para la solución de problemas pues, específicamente en este sector tan

importante, contribuye a evitar afectaciones tanto en los cultivos como en la economía.

Teniendo en cuenta la situación problémica descrita anteriormente, se plantea como:

Problema científico:

5

¿Cómo determinar el tipo de red neuronal más efectivo en la clasificación de imágenes

aéreas para la agricultura de precisión?

Objetivo general:

Evaluar diferentes configuraciones de redes neuronales en la clasificación de imágenes

aéreas en la agricultura de precisión.

Interrogantes científicas:

1. ¿Qué referentes teóricos fundamentan la utilización de redes neuronales para la

clasificación de imágenes aéreas en la agricultura de precisión?

2. ¿Cuáles son los rasgos que caracterizan una imagen aérea en la agricultura de

precisión?

3. ¿Cuáles son las redes neuronales aplicables al campo de la clasificación de

imágenes aéreas en la agricultura de precisión?

4. ¿Qué resultados pueden obtenerse al medir el rendimiento de las redes neuronales

artificiales en la clasificación de imágenes aéreas en la agricultura de precisión?

Objetivos específicos:

1. Fundamentar teóricamente la utilización de redes neuronales para la clasificación de

imágenes aéreas en la agricultura de precisión.

2. Establecer los rasgos de una imagen aérea en la agricultura de precisión.

3. Determinar las redes neuronales aplicables al campo de la clasificación de

imágenes.

4. Evaluar el rendimiento de las redes neuronales artificiales en la clasificación de


Estructura del trabajo: Está compuesto por la introducción, el desarrollo, tres capítulos

y las conclusiones, además de recomendaciones, y bibliografía.

Capítulo 1: Expone una breve conceptualización sobre las imágenes, su

clasificación y sus diferentes aplicaciones. También se abordan los conceptos relacionados

con las redes neuronales artificiales, sus componentes, sus funciones y su clasificación de

acuerdo a determinados parámetros.

6

Capítulo 2. Expone los materiales y métodos empleados por el autor para la

consecución del objetivo planteado.

Capítulo 3. Se realiza un análisis de los resultados obtenidos y se someten a

discusión.

7

CAPÍTULO 1: FUNDAMENTACIÓN TEÓRICA DE LA

CLASIFICACIÓN DE IMÁGENES AÉREAS EN LA AGRICULTURA

DE PRECISIÓN CON REDES NEURONALES

En este capítulo se abordan algunos de los conceptos necesarios para justificar el

empleo de las redes neuronales como clasificadores no paramétricos en la clasificación de


1.1 Imágenes digitales

Una imagen natural capturada con una cámara, un telescopio, un microscopio o

cualquier tipo de instrumento óptico presenta una variación de sombras y tonos continua.

Imágenes con estas características se denominan imágenes analógicas.

Para que una imagen natural o analógica pueda ser “manipulada” por un medio de

cómputo,primero debe ser digitalizada. . (Bustos et al., 2004).

1.1.2 Representación

Una imagen se representa por una función bidimensional 𝑓(𝑥, 𝑦), cuyo valor

corresponde a la corresponde a la intensidad de luz en cada punto del espacio de las

coordenadas (𝑥, 𝑦). En el caso de una imagen monocromática, al valor de la función se le

denominará nivel o escala de gris en el punto de coordenadas (𝑥, 𝑦). Las imágenes a color

están formadas por la combinación de imágenes 2-D. En base a este concepto, una imagen

es analógica si el dominio (valores de (𝑥, 𝑦)) y el rango (valores de 𝑓(𝑥, 𝑦) son continuos,

mientras que una imagen digital posee dominio y rangos discretos.

Para convertir una imagen analógica en digital, la imagen es dividida en valores de

brillo individuales, mediante dos procesos denominados muestreo (sampling) y

cuantización (quantization) (Mihaich, 2014).

1.1.3 Resolución espacial, resolución espectral y profundidad de color

Las dos fundamentales causas de pérdida de información cuando se captura una imagen

digital son la naturaleza discreta del valor de los píxeles y el rango limitado de los valores

de intensidad luminosa que pueden tener cada uno de estos elementos. En base a estos

problemas, surgen los conceptos de resolución espacial y profundidad de color.

8

Resolución espacial

El muestreo determina la resolución espacial de la imagen. La resolución espacial de

una imagen es una característica de la misma determinada por las características del sensor

y las condiciones de adquisición de la imagen (Recio, 2010). Define el menor detalle

discernible dentro de la imagen, es decir, el menor número de píxeles comprendidos en

una unidad de distancia (por ejemplo, 500 píxeles por centímetro) (Mihaich, 2014).

La resolución espacial suele interpretarse como el tamaño del objeto más pequeño que

puede ser distinguido en una imagen: tamaño del píxel sobre el terreno (Pérez Gutierrez

and Muñoz Nieto, 2006).

Un píxel no representa un solo punto en la imagen, sino una región rectangular. Con

píxeles grandes no sólo se pierde en resolución espacial, sino que el valor del nivel de gris

correspondiente puede hacer aparecer discontinuidades o fronteras en los bordes de los

píxeles. En dichos casos es necesario realizar una clasificación sub-píxel para obtener un

grado de detalle superior al de la imagen. En cambio, cuanto menor sea el tamaño del

píxel sobre el terreno menor será la posibilidad de que se encuentren dos o más fronteras

dentro de la imagen dentro de él.

Por tanto, dependiendo de lo que se quiera tratar en la imagen, un tamaño de píxel será

más funcional que otro. En el caso de que se requiera disminuir la variabilidad de

categorías dentro de la imagen, una menor resolución espacial es la técnica empleada,

mientras que, en el caso que se quieran tratar imágenes con una alta precisión, se emplea

una resolución espacial mayor. A medida que los píxeles se hacen más pequeños, ocurre la

sensación de que la imagen es continua. Esto pasa porque el tamaño de los píxeles es

menor que la resolución espacial de nuestro sistema visual.

Imagen 1. Imagen representada en diferentes resoluciones espaciales

9

Resolución espectral:

Esta propiedad viene determinada por el número de bandas del espectro

electromagnético que es capaz de discriminar el sensor. Hay sensores que captan la

información en las bandas del espectro visible. Sin embargo, existen sensores capaces de

recoger información de longitudes de onda invisibles al ojo humano, por ejemplo, el

infrarrojo cercano, cuyas longitudes de onda son algo menores que la menor longitud de

onda que puede detectar el ojo humano (Perez and Muñoz, 2006).

Los nuevos sensores, llamados también espectrómetros o híper espectrales llegan a

tener hasta 256 canales con un ancho de banda muy estrecho (unos pocos nm) para poder

separar de forma precisa distintos objetos por su comportamiento espectral.

Así que, básicamente, la resolución espectral se refiere a la habilidad de los sistemas de

percepción de distinguir y diferenciar entre el espectro de radiación electromagnética de

distintas longitudes de onda (García-Cervigón, 2015). En cuanto a resoluciones espectrales

se pueden distinguir entre imágenes:

Multiespectrales: Que generalmente capturan información entre 3 y 7 bandas de

unos 100 nm de ancho.

Híper espectrales: Que adquieren información en varias decenas o centenas de

bandas, hasta 256 generalmente, con longitudes de onda inferiores a los 5 nm de ancho,

permitiendo así separar de forma muy precisa distintos objetos por su comportamiento

espectral.

Profundidad de color

La cuantización viene a resolver la imposibilidad de tener un rango infinito de valores

para la intensidad o brillo de los píxeles. Después de que se captura la imagen, se le asigna

a cada píxel una intensidad representada por un número entero. La apreciación de este

valor es directamente proporcional al número de bits que utiliza el dispositivo con que se

captura la imagen para representar los números enteros (Mihaich, 2014).

10

Por tanto, la profundidad de color representa el número de bits necesarios para la

codificación y el almacenamiento de la información de color de cada píxel presente en la

imagen. Un bit es una posición de memoria que puede tener el valor 0 o 1. Así, mientras

mayor sea la profundidad de color en bits, mayor será la paleta de colores presente dentro

de la imagen. Si se emplea un bit, la imagen será en blanco y negro (0=color negro y

1=color blanco), mientras que, si se utilizan 8 bits, la imagen adquirirá 256 niveles de gris.

1.2 Modelos de color

Un modelo de color es un modelo matemático abstracto que describe la forma en que

los colores pueden ser representados de forma numérica. Tienen como objetivo facilitar la

especificación de los colores de forma normalizada y aceptada genéricamente (Mihaich,

2014).

Entre los modelos de color más empleados en el procesamiento de imágenes están: el

modelo RGB y el modelo CMY.

El modo RGB forma cada color de la imagen como la combinación de tres canales

correspondientes a los colores primarios: rojo (Red), verde (Green) y azul (Blue). Es un

modelo de color basado en la síntesis aditiva: cada color se representa como la suma de los

colores primarios, siendo el blanco la suma de todos ellos (Baluja, 2009).

Este modelo no define por sí mismo lo que significa exactamente rojo, verde o azul;

por lo que los mismos valores RGB pueden mostrar tonos notablemente diferentes en

dispositivos diferentes.

El modelo CMY es el inverso exacto del modelo RGB: en este caso el origen es el

blanco y los ejes primarios son los colores cian (Cyan), magenta (Magenta) y amarillo

(Yellow). Este modelo es sustractivo, la suma de todos los colores produce el negro

(Mihaich, 2014).

Si se muestra una imagen CMY como si fuera RGB se podrá observar una imagen con

todos sus colores invertidos o negativos.

las ecuaciones (1-6) permiten pasar de un sistema a otro:

11

𝑐 = max − 𝑟 (1) 𝑚 = max − 𝑔 (2) 𝑦 = 𝑚𝑎𝑥 − 𝑏 (3)

𝑟 = max − 𝑐 (4) 𝑔 = max − 𝑚 (5) 𝑏 = max − 𝑦 (6)

donde:

máx. es el valor máximo de la intensidad, c, m e y son las componentes C, M e Y

respectivamente del modelo CMY, y r, g y b son las respectivas componentes R, G y B del

modelo RGB.

1.3 Propiedades de la imagen

Las imágenes presentan un conjunto de características descriptivas inherentes. Entre

ellas están: el tono, el color, la textura, la forma, el tamaño y el patrón (Vargas, 2008).

Tono

El tono describe el brillo relativo de los objetos. Uno de los principales criterios de

interpretación visual de una imagen es la variación en el tono en una imagen. La cantidad

de energía reflejada por la superficie de un objeto está directamente relacionada con la

expresión del tono del mismo. Las diferentes clases de objetos presentan variaciones en el

tono entre ellas, y a su vez, los objetos que pertenecen a una misma clase también difieren

en el tono entre ellos. Por ejemplo, el suelo y la vegetación presentan diferencias notables

en tono, pero, un suelo desértico y un suelo con alto contenido de óxidos ferrosos difieren

en cuanto al tono.

Diversos factores inciden en la representación del tono en una imagen, entre ellos:

- la posición del sol (su altura en el cielo y la estación del año).

- la distinta reflectividad en la banda analizada (por ejemplo, en el espectro visible la

vegetación presenta tonos oscuros, mientras que en las longitudes de onda del infrarrojo

presentan tonos más claros).

- las características de los objetos dependiendo de la época del año (por ejemplo, un río

en la época húmeda presenta un ensanchamiento, y, por tanto, un mayor tono claro, y en el

período seco se presenta un estrechamiento, presentando ambos diferentes tonos).

12

Se destaca el hecho de que, al representar una imagen en formato digital, se pierden

tonos, puesto que los detectores, en su mayoría, detectan 256 niveles de gris. Por otra

parte, el ojo humano no está capacitado para distinguir 256 niveles de gris.

Color

El ojo humano está apto para percibir longitudes de onda entre los 350 y 780nm,

separando la energía recibida en tres componentes que dan su nombre a los colores

primarios, rojo, verde y azul. En la retina hay células foto sensitivas denominadas conos.

Hay tanta cantidad de tipos de conos como colores primarios. Por esta razón se dice que la

visión humana es tricromática (Pinto, 2006).

Cualquier combinación entre los colores primarios genera un nuevo color, y a su vez,

cada color puede ser representado como una mezcla entre ellos.

Los dispositivos de visualización digitales tienen tres canales: azul, rojo y verde. En el

caso que se desee visualizar una sola banda del espectro, por ejemplo, grises, se introduce

la misma información por los tres canales del dispositivo. En el caso de que sea una

composición de color lo que se desee mostrar, los datos de las tres bandas usados son

distribuidos por cada uno de los canales, de forma que se reproducen multitud de colores

como producto de la combinación de los valores de intensidad de cada una de las tres

bandas por cada píxel.

Textura

La textura es la frecuencia con la que se suceden cambios tonales, es decir, la forma en

que se contrastan espacialmente los elementos que componen la imagen. Esta

característica se produce como una combinación de rasgos unitarios que pueden ser

demasiado pequeños para diferenciarlos individualmente, pero que juntos marcan una

diferencia respecto al resto de la foto.

En la vegetación, por ejemplo, cada hoja tiene su propia forma, tamaño, patrón, sombra

y tono, pero todas estas características juntas hacen que sea posible diferenciar entre un

tipo de vegetación y otra. La textura está estrechamente ligada a la resolución espacial del

sensor, ya que procede de la relación entre el tamaño del objeto y dicha resolución. A

medida que aumenta la altura a la que se fotografía el objeto o área, la textura se hace

progresivamente más fina hasta desaparecer (Arista et al., 2017).

13

Tamaño:

El tamaño de los objetos se tiene que determinar en el contexto de la resolución

espacial y la escala a la que se muestra la imagen. También es importante relacionar el

tamaño del objeto analizado con otros objetos de la imagen, para saber, por ejemplo, si

una carretera o camino es más o menos importante.

Patrón:

Se refiere a la distribución espacial de los objetos en ciertas formas cada cierta área. Se

habla de patrón concéntrico, de patrón rayado, de patrón radial, de patrón cuadriculado,

etc.

1.4 Imagen aérea

La fotografía aérea supone un análisis de la superficie terrestre mediante el empleo de

máquinas fotográficas instaladas a bordo de diversos medios. Las plataformas para la

fotografía aérea incluyen aviones de ala fija, helicópteros, vehículos aéreos no tripulados

(UAV o “drones”), globos y dirigibles, cohetes, palomas, cometas, paracaídas, etc. (Peña

et al., 2014).

Encuentra aplicaciones en diversos campos, como son, la investigación arqueológica

(Treworder, 1999), la prospección geológica, en el control de la deforestación y la

desertización, en la oceanografía costera, en las planificaciones y ejecuciones urbanísticas,

etc.

En la agricultura expresamente se emplea para recabar información sobre la naturaleza

de los terrenos y la extensión de los cultivos, aparte de realizar un seguimiento más

preciso a la evolución de los mismos (García and Flego, 2009).

La fotografía orbital permite la obtención de imágenes de altura muy superior a

aquellas enmarcadas en las fotografías aéreas, de la cual constituye una extensión.

Mediante aparatos fotográficos instalados a bordo de vehículos espaciales o satélites que

orbitan en torno a la Tierra, toman fotografías de alta precisión que son fundamentales en

los estudios meteorológicos, la contaminación de los mares, etc. (Recio, 2010).

14

1.4.1 Imágenes aéreas en la agricultura de precisión

Una imagen aérea en la agricultura, generalmente, es una foto vertical, es decir, que la

cámara fotográfica señala directamente al suelo y provee una vista plana del medio.

Como fruto del interés por discriminar objetos a diferentes escalas, las imágenes aéreas

tomadas para la agricultura de precisión en la actualidad disponen de una elevada

resolución espacial. Existen diferentes formas o metodologías para el análisis de esas

imágenes. Algunos estudios se centran en el análisis de la vegetación como objeto a gran

escala (Recio, 2010; Berrío, Mosquera and Alzate, 2015; García-Cervigón, 2015),

mientras que otros se concentran en el estudio de los objetos más pequeños que conforman

la vegetación a nivel de unidad, las plantas (Vargas, 2008; Peña et al., 2014).

1.5 Proceso de reconocimiento y clasificación de imágenes

Un sistema de visión por computadora y la posterior clasificación de las imágenes

obtenidas permiten realizar la identificación y clasificación de los objetos contenidos

dentro de las imágenes siguiendo un procedimiento que incluye (Hernández Hernández,

2014).:

Mejoramiento de la imagen

Segmentación y etiquetado

Representación y Descripción

Reconocimiento de formas

1.5.1 Mejoramiento de la imagen

El mejoramiento de la imagen se centra en la eliminación de ruido en la imagen, realce

de bordes, elección de los mejores valores de brillo y contraste, eliminación de los efectos

de distorsión introducidos por el mecanismo de captura de la imagen, etc.

Un ejemplo claro es cuando se incrementa el contraste de una imagen debido a que “se

ve de una mejor forma”.

15

Estas “mejoras” generalmente se consiguen operando con el histograma de la imagen,

el cual es una representación del nivel de intensidad de cada píxel por la cantidad de veces

que aparece en la imagen. En el caso de que se quiera representar esa escala en referencia

a la unidad, se divide cada valor por la cantidad de píxeles de la imagen, obteniéndose así

un histograma normalizado.

Una de las operaciones básicas que se realiza sobre el histograma es la ecualización, la

cual consiste en balancear la frecuencia de los niveles de intensidad de una imagen, dando

como resultado una imagen con mejor contraste.

1.5.2 Representación y descripción

La representación y descripción casi siempre es la etapa siguiente a la de segmentación

y etiquetado, cuya salida es usualmente un conjunto de píxeles los cuales constituyen a un

objeto en la imagen o región.

La primera decisión que se debe tomar es si el conjunto de datos representa los límites

de una región o la región completa. La representación de límites es apropiada cuando el

problema se enfoca en las características externas de un objeto, como lo son las esquinas o

puntos de inflexión. La representación de las regiones es útil cuando se orienta a las

propiedades internas de los objetos, como son la textura o la forma del esqueleto de los

objetos (Hernández, 2014).

1.5.3 Reconocimiento de formas

El reconocimiento de formas es el proceso que le asigna un nombre “con un

significado” a un objeto, el cual se basa en su descripción y características. El

reconocimiento de un objeto requiere un conocimiento previo de lo que son los objetos. A

ese conocimiento se le denomina “base de conocimiento” (Mihaich, 2014).

1.6 Clasificadores de imágenes

Un clasificador de imágenes es un método que procesa una imagen o un conjunto de

ellas y retorna la imagen clasificada en los objetos que la componen. Existen varios tipos

de clasificadores:

16

1.6.1 Métodos de clasificación según la unidad espacial

La resolución espacial de una imagen es una característica determinada por las

características del sensor y por las condiciones de adquisición de la imagen. Siendo una de

las características de la imagen, el píxel no debe condicionar totalmente la metodología a

utilizar ni el tamaño de los objetos a extraer del análisis de la imagen.

En determinados problemas, el tamaño del píxel será demasiado grande en relación con

el tamaño de los objetos a identificar, requiriendo de una clasificación sub pixel para

obtener un grado de detalle superior en la imagen. En cambio, en el caso de imágenes de

alta resolución, se hace necesario el análisis de una región de píxeles con propiedades

similares (Recio, 2010).

A continuación, se realiza un compendio de los principales métodos de clasificación, y

su proyección en la agricultura de precisión.

Clasificadores por píxel:

Los clasificadores por píxeles tradicionales obtienen un vector de características para

cada clase a partir de las propiedades espectrales de todos los píxeles contenidos en sus

respectivas áreas de entrenamiento.

Cada píxel es asignado a una categoría que es exclusiva. Esta metodología da buenos

resultados en las cubiertas espectralmente homogéneas, pero proporciona resultados

menos satisfactorios en las cubiertas heterogéneas. Sus principales inconvenientes son que

no consideran la información espacial de la imagen y la existencia de píxeles mixtos, o de

borde, que representan mezclas de dos o más tipos de clases (Blaschke, Burnett and

Pekkarinen, 2004).

Aunque la clasificación por píxel se ha demostrado útil para la clasificación de cultivos,

hay dos problemas de clasificación frecuentes: la variabilidad espectral de una cubierta

dentro de una parcela agrícola debido a, por ejemplo, variaciones de la humedad del suelo,

diferencias en nutrientes, enfermedades, etc. Esta heterogeneidad espectral en el interior

de una parcela permite que sucedan clasificaciones erróneas, aun teniendo toda ella el

17

mismo cultivo. Por otro lado, se presenta la aparición de píxeles mixtos situados en la

zona de contacto de dos parcelas limítrofes. En algunos casos, la huella espectral de los

píxeles mixtos, es más similar a un cultivo distinto a los dos presentes en esa superficie,

con lo que su clasificación será incorrecta (Smith and Fuller, 2004).

Clasificadores sub-píxel:

La suposición de que cada píxel pertenece a una clase informacional no es correcta en

todos los casos, especialmente cuando se trata de paisajes complejos y la resolución

empleada es media o baja. La existencia de píxeles mixtos dificulta la aplicación de los

algoritmos clasificadores por píxel. Por tanto, se hace necesario un enfoque diferente.

En lugar de un clasificador “duro”, entendido como el que asigna una única clase a

cada píxel, se utilizan clasificadores blandos que determinan el grado de pertenencia de un

píxel a cada clase. Entre estos métodos destaca la clasificación difusa o borrosa (fuzzy),

que determina para cada píxel el grado de pertenencia a las distintas clases a partir de las

funciones de pertenencia definidas para cada una de ellas (Recio, 2010).

Clasificadores de contexto:

En la clasificación por píxel se utiliza el nivel digital del píxel en varias bandas

espectrales, es decir, los valores que le corresponden a un píxel en un espacio

multidimensional de características, pero no se considera el contexto espacial en que se

encuentra. El contexto espacial ha tenido una importancia reducida en el análisis de

imágenes basado en píxeles. Se ha centrado la atención en el análisis estadístico de los

valores almacenados en los píxeles, más que en descubrir y entender los patrones

espaciales que ellos siguen.

Entre los rasgos más importantes para la interpretación visual humana siempre se

incluyen las características espaciales de la imagen como son la textura, la forma, el color,

etc. Los algoritmos que emplean más datos además del nivel de gris se conocen como

algoritmos de contexto.

18

La clasificación contextual puede clasificarse en tres tipos en función de la etapa en la

que hacen uso de las características espaciales: pre-procesado, post-procesado y

clasificador contextual (Gong and Xu, 2004):

Imagen 2. Clasificadores de contexto. Adaptada de Gong y Xu, 2004

Métodos de pre-procesado: Consisten en extraer de la imagen una serie de

características espaciales descriptivas del dominio circundante de cada píxel.

Cada una de las características espaciales extraídas de la imagen se incorpora a un

espacio multidimensional de características, de modo que cada píxel tiene asociado un

vector de características espectrales y espaciales o texturales. Posteriormente, cada píxel

será asignado a una clase por un clasificador de máxima probabilidad, de mínima distancia

o cualquier otro clasificador estadístico o no paramétrico.

Existen numerosos métodos diseñados para extraer información textural de la imagen,

como por ejemplo, la matriz de coocurrencia de niveles de gris (Haralick, Shanmugan and

Dinstein, 1973), los filtros de Gabor (Weldon and Higgins, 1998), la transformada wavelet

(Ruiz, Fernández and Recio, 2004), el variograma (Chica and Abarca, 2000).

Métodos de post-procesado: Estos métodos perfeccionan las imágenes ya

clasificadas y son conocidos como re clasificadores contextuales. Los métodos de post-

procesado evalúan una clasificación y la modifican según un determinado criterio. Un

ejemplo de algoritmo de post-procesado es la aplicación de un filtro de moda, que asigna a

19

cada píxel la clase más frecuente en su vecindario. Otro método de post-procesado es el

método SPARK o kernel de reclasificación espacial, que consiste en definir unas matrices

que representan patrones espaciales típicos de los distintos usos de suelo (Sluiter et al.,

2004).

Clasificadores de contexto: En lugar de extraer información contextual y

almacenarla para usarla en la clasificación como ocurre en los métodos contextuales de

pre-procesado, un clasificador contextual organiza la información del entorno del píxel

directamente en el proceso de asignar una etiqueta de clase al píxel.

Clasificadores orientados a objetos

Entre los métodos clasificadores que consideran la distribución espacial existente en la

imagen se incluyen los clasificadores orientados a objetos.

Hay y Castilla(2006), definen el Análisis de Imágenes Orientado a Objetos como una

disciplina dedicada a dividir las imágenes en objetos con significado propio y al mismo

tiempo, obtener sus características desde un punto de vista espacial, espectral y temporal.

En esta metodología se considera la forma, la textura y las propiedades espectrales de los

objetos que forman la imagen, así como las relaciones existentes con los objetos vecinos

situados en un contexto espacial más o menos cercano, aumentando de forma considerable

las características descriptivas de los objetos que facilitarán su correcta clasificación,

siendo los objetos los que se clasifican y no los píxeles individualmente.

El primer paso de estos clasificadores es la segmentación de la imagen que debe

hacerse teniendo en cuenta la resolución de la imagen y el tamaño de los objetos a

identificar. El resultado es un conjunto de regiones que cubren totalmente la imagen.

Todos los píxeles de una región son similares con respecto a alguna característica, al

mismo tiempo que son diferentes de los píxeles situados en regiones adyacentes. Una

imagen puede segmentarse en objetos de mayor o menor tamaño, determinando las

características derivadas de los objetos de la imagen. El hecho de segmentar una imagen

en diferentes escalas da lugar a que surja una estructura jerárquica entre los objetos de los

distintos niveles, ya que un objeto puede incluir objetos de niveles inferiores, y a su vez,

20

formar parte de objetos de un nivel superior, por ejemplo, se puede segmentar una imagen

y obtener objetos de tipo árboles, que a su vez pudieran segmentarse en objetos de tipo

hoja, si la resolución espacial lo permite; y a su vez los objetos árboles forman parte de un

objeto tipo bosque.

La característica más valiosa de la clasificación de imágenes orientada a objetos es la

posibilidad de obtener un gran número de características descriptivas de los objetos y de

las relaciones existentes entre los mismos que permiten describirlos mejor, y, por lo tanto,

diferenciarlos y obtener resultados más precisos y específicos (Recio, 2010).

1.6.2 Métodos de clasificación no paramétricos:

Los métodos de clasificación pueden ser paramétricos o no paramétricos. Los

clasificadores paramétricos asumen que los datos de una clase siguen una distribución

normal y que los parámetros estadísticos, como la media y la varianza, difieren

significativamente entre las clases.

Sin embargo, esta asunción no siempre es correcta, ya que generalmente existe

confusión espectral entre clases parecidas(Romero and Calonge, 2004), y clases diferentes

con propiedades espectrales similares (Vega, 2011).

Otro de los inconvenientes de los clasificadores paramétricos reside en la dificultad de

combinar datos espectrales con otros datos auxiliares que permitan completar la

información proveniente de la imagen, por no cumplir los requisitos estadísticos impuestos

por estos métodos.

En cambio, los métodos no paramétricos no realizan ninguna asunción sobre la

naturaleza de los datos ya que no emplean parámetros estadísticos para calcular la

separabilidad entre clases. Además de ser especialmente adecuados para la incorporación

de datos externos a las imágenes en el proceso de clasificación. Entre los clasificadores no

paramétricos más utilizados están los sistemas expertos basados en árboles de decisión

(Huang and Jensen, 1997) y las redes neuronales (Romero and Calonge, 2004; Vega,

2011; García, 2013; Hernández, 2014; Mihaich, 2014).

21

1.7 Redes neuronales

Una red neuronal artificial (RNA) es un modelo matemático construido emulando el

funcionamiento de las neuronas biológicas (Vera et al., 2009). Al estar construidas

basándose en la actividad neurológica, sus unidades de funcionamiento son las neuronas

artificiales.

El fin perseguido con las RNA es emular el sistema nervioso biológico a través de

procesadores artificiales, que incluso permitan evitar fallas o errores humanos. Una RNA

puede considerarse como un modelo de actividades mentales, basado en la explotación del

procesamiento local en paralelo y en las propiedades de la representación distribuida.

Los elementos básicos de un sistema nervioso biológico son las neuronas, agrupadas en

redes compuestas por millones de ellas y organizadas a través de una estructura de capas.

En un sistema neuronal artificial puede establecerse una estructura jerárquica similar, de

forma que las neuronas cuyas entradas provienen de la misma fuente y sus salidas se

dirigen al mismo destino, se denomina capa o nivel. La agrupación de estos conjuntos

constituye el sistema neuronal completo.

Una red neuronal es un conjunto de neuronas agrupadas en capas, interconectadas entre

sí mediante conexiones, que realizan el proceso de comunicar las señales dentro de la red.

Cada una de estas conexiones está ligada a un peso, que determina la información

empleada por las neuronas para resolver un problema (Lizarazo, Mesa and Cuitiva, 2005).

Las entradas de una neurona pueden provenir o bien del entorno, como es el caso de las

neuronas de la primera capa, o bien de otras neuronas, como es el caso de cualquiera de

las neuronas de las otras capas. La salida asimismo es enviada o bien a otras neuronas o al

entorno mediante las neuronas de la última capa.

Cada una de estas neuronas o procesadores suma las entradas ponderadas y su resultado

se opera a través de una función conocida como función de transferencia.

La modificación de las ponderaciones efectuadas es la clave del aprendizaje de la red

(Mihaich, 2014). De esta forma, la red neuronal artificial aprende de sus propios errores,

22

basándose en un proceso que, mediante la representación de un conjunto de patrones de

información, permiten al sistema la generalización de conceptos a partir de casos

particulares (Lizarazo, Mesa and Cuitiva, 2005).

Una red neuronal puede representarse como un grafo dirigido con las siguientes

propiedades (Mihaich, 2014):

A cada nodo j se le asocia una variable de estado xj.

A cada conexión (i,j), entre los nodos i y j, se le asocia un peso 𝑤𝑖𝑗 ∈ ℝ

En muchos casos, a cada nodo se le asocia un umbral de disparo 𝜃𝑗

Para todo nodo j, se define una función 𝑓𝑗(𝑥𝑖, 𝑤𝑖𝑗, 𝜃𝑗), que depende del estado de

todos los nodos unidos a él, de los pesos de sus conexiones y del umbral de activación para

proporcionar un nuevo estado.

Considerando el lenguaje habitual de los grafos, pueden establecerse las siguientes

equivalencias:

Un nodo representa una neurona.

Una conexión representa una sinapsis.

Una neurona de entrada es aquella sin conexiones entrantes.

Una neurona tanto con entradas como salidas, se denomina neurona oculta.

Una neurona de salida es la que no presenta conexiones salientes.

El número de neuronas por cada capa está determinado por las propiedades del problema

a resolver. Generalmente, el número de neuronas de la capa de entrada coincide con la

cantidad de entradas individuales de la red, y el número de neuronas de la capa de salida es

generalmente el número de clases en las que separa la solución. El número de neuronas de

la capa intermedia no está sujeta a ningún parámetro.

Las ventajas principales de las redes neuronales frente a otros métodos de clasificación

son que no requieren una distribución normal de los datos (Recio, 2010), y su habilidad

para adaptarse a patrones complejos y no lineales (Jensen, 2005).

Una red neuronal para la clasificación de imágenes, generalmente consta de tres capas.

Una capa de entrada, donde por cada clase descriptora de los rasgos de la imagen (textura,

23

color, forma, etc.) se tiene una neurona. Una capa intermedia u oculta, que es donde se

efectúa el aprendizaje de la red y una capa de salida, generalmente con la misma cantidad

de neuronas que de clases que se quieren clasificar con la red.

Imagen 3. Estructura de una red neuronal para la clasificación de imágenes

Para que la información sea procesable por la red neuronal, requiere que los datos sean

organizados en forma de vector, de modo que este es llamado vector de características o

vector de rasgos. El mismo puede ser conformado por los rasgos extraídos a la imagen. Un

ejemplo hipotético, si se quisiera reconocer una imagen binaria de un conjunto de datos, el

vector de características asociado podría ser un arreglo de dimensión mxn, donde m y n

son las dimensiones de la imagen. En cada posición del vector está contenido el valor

numérico del píxel representado en esa posición.

De todo lo anteriormente expuesto, se deduce que una neurona puede ser considerada

como un dispositivo altamente no lineal, integrado en un sistema masivamente paralelo,

dotado de gran robustez y con una alta tolerancia a fallos (Mihaich, 2014).

En un espacio bi-espectral en que una línea recta pueda separar los píxeles que

conforman dos clases temáticas, esta línea recta puede extenderse a un espacio

multidimensional y construir un híper-plano o superficie de decisión para clasificación

multiespectral (Lizarazo, Mesa and Cuitiva, 2005).

24

La posición de esa superficie no se conoce inicialmente y debe ser determinada

mediante alguna técnica de entrenamiento que permita determinar un conjunto apropiado

de pesos que defina una superficie de decisión correcta para separar los píxeles de

muestra. Es notable el hecho de que no exista una única solución, sino que existe un

infinito número de híper-planos de decisiones que podrían ser capaces de separar las dos

clases.

1.7.1 Elementos y características principales de las RNA

Las redes neuronales artificiales, siendo modelos que intentan emular el

comportamiento del cerebro, realizan una simplificación del sistema neuronal humano en

base a sus elementos estructurantes e imitando su comportamiento de forma

computacional.

El procedimiento convencional empleado para construir redes capaces de realizar una

determinada tarea consiste en una elección adecuada de las características de cada

neurona, de la arquitectura de la red y el modo de operación o aprendizaje.

A continuación, se describen los principales elementos de las RNA:

La neurona

Las redes neuronales artificiales están conformadas por una serie de dispositivos

elementales, nombrados neuronas artificiales. Constituyen dispositivos simples de cálculo

que a partir de un vector de entradas procedentes del mundo exterior o de un vector de

estímulos recibidos de otras neuronas, proporcionan una respuesta única. Se distinguen

tres tipos de neuronas artificiales (Mihaich, 2014):

Las neuronas de entrada, que reciben señales desde el entorno.

Las neuronas de salida, que envían su señal directamente fuera del sistema

Las neuronas ocultas, que reciben y envían estímulos dentro del sistema, sin

mantener contacto alguno con el exterior. Es en ellas donde se realiza el procesamiento

básico de la información.

Función de propagación

25

Una función de propagación es aquella regla que establece el procedimiento a seguir

para combinar valores de entrada y los pesos de las conexiones que llegan a una unidad.

En la práctica, es común el empleo de una matriz W, integrada por todos los pesos wij

indicativos de la influencia que tiene la neurona i sobre la neurona j. Si el valor es

positivo, la conexión entre i y j es excitatoria. Esto quiere decir, siempre que la neurona i

esté activada, la señal j recibirá una señal que tenderá a activarla. Si, por el contrario, el

valor wij es negativo, la interacción entre ambas neuronas es inhibitoria. Es decir, si la

neurona i se activa enviará a la neurona j una señal que tenderá a desactivarla. Si el valor

wij es cero, se considera que no existe conexión entre ambas neuronas.

Función de activación o transferencia

La función de activación combina el potencial post-sináptico de la j-ésima neurona con

el estado inicial de la neurona que recibe su entrada de la salida de j, para producir un

nuevo estado de activación acorde con la información recibida (García, 2013).

Generalmente la función de transferencia tiene carácter determinista, y en la mayor

parte de los modelos, es monótona, creciente y continua respecto al nivel de activación de

la neurona. A menudo se emplea una función de tipo sigmoidal, y suele ser la misma para

cada unidad de la capa.

En general, se pueden distinguir seis funciones de transferencia típicas (Mihaich,

2014):

1. La función lineal o identidad (purelin), que devuelve directamente el valor de

activación de la neurona. Este tipo de función se utiliza en las redes de baja complejidad,

como en el modelo Adaline.

2. La función escalón o signo, que representa salidas binarias (habitualmente -1,1 o

0,1). En este caso, si la activación de una neurona es inferior a un determinado umbral, la

salida se asocia con un determinado output,y si es igual o superior al umbral, se asocia con

el otro valor. Si bien las neuronas definidas con este tipo de funciones resultan fáciles de

implementar, sus aplicaciones son limitadas, al restringirse a problemas binarios. Entre las

26

redes que utilizan funciones de transferencia de tipo escalón, destacan el Perceptrón

Simple, la red de Hopfield discreta y la neurona clásica de McCulloch Pitts.

3. La función mixta o lineal a tramos, es la que, si la activación de una unidad es

menor que un límite inferior preestablecido, la salida se asocia con un determinado valor,

si el valor de activación es igual o superior que un límite superior, la salida se asocia con

otro valor; si el nivel de activación se encuentra comprendido entre ambos umbrales, se

aplica la función lineal. Esta alternativa se considera como una función lineal saturada en

sus extremos, siendo de sencillez computacional y resultando más plausible desde el punto

de vista biológico.

4. La función sigmoidea, definida en un determinado intervalo monotónico con

límites superiores e inferiores. Entre las funciones sigmoideas más aplicadas destacan la

función sigmoide o logística, la función tangente hiperbólica, y la función sigmoide

modificada. Las funciones sigmoideas se caracterizan por presentar una derivada simple

positiva e igual a cero en sus límites asintóticos, que toma su valor máximo cuando x = 0.

Así, estas funciones admiten la aplicación de las reglas de aprendizaje típicas de la función

escalón, con la ventaja adicional de que la derivada se encuentra definida en todo el

intervalo, lo que permite utilizar algoritmos de entrenamiento más avanzados.

5. La función gaussiana, que adquiere la forma de campana de Gauss, cuyo centro,

radio y apuntamiento son susceptibles a adaptación, lo que las hace muy versátiles. Las

funciones gaussianas se suelen aplicar a redes complejas con dos o más capas ocultas, que

requieren reglas de propagación basadas en el cálculo de distancias cuadráticas entre los

vectores de entrada y los pesos de la red (por ejemplo, la distancia euclídea al cuadrado).

6. La función sinusoidal, que genera salidas continuas en el intervalo [-1,1]. Estas

funciones suelen emplearse en los casos en los que se requiere explícitamente una

periodicidad temporal.

Función de salida

Cada neurona tiene asociada una función de salida F que transforma el estado actual de

activación en una señal de salida.

27

Habitualmente, la función de salida coincide con la función identidad F(x)=x, por lo

que el estado de activación de la neurona se asocia con su salida final. Esta situación es

típica en las redes más empleadas en la práctica, como la Adaline, el Perceptrón Simple o

el Perceptrón Multicapa.

En otros casos, la salida final de la neurona se calcula mediante una función estocástica

del estado de activación inicial, por lo que la neurona presentará un comportamiento

probabilístico. Este es el caso de las funciones de transferencia utilizadas en redes como la

Máquina de Boltzmann o la Máquina de Cauchy (Lizarazo, Mesa and Cuitiva, 2005).

Señal de salida

En el caso de problemas de clasificación suele considerarse un conjunto finito de

salidas, en muchos casos binarias, mientras que en las tareas de ajuste de regresión suelen

precisarse salidas continuas en un determinado intervalo. El tipo de salida determinará la

función de transferencia y la señal de salida que debe emplearse.

Regla de aprendizaje

Biológicamente se acepta que la información memorizada en el cerebro depende de

varios valores sinápticos representativos de las conexiones existentes entre las neuronas.

De forma similar, en las RNAs se puede considerar que el conocimiento se encuentra

representado en los pesos de las conexiones entre las neuronas artificiales, por lo que el

proceso de aprendizaje o entrenamiento implica cierto número de cambios en estas

conexiones.

Ahora bien, cada modelo de redes neuronales artificiales dispone de sus propias

técnicas de aprendizaje, que dependen de la arquitectura de la red y del algoritmo de

entrenamiento implementado (Mihaich, 2014).

1.7.2 Arquitectura de las RNAs

La topología o arquitectura de una RNA referencia a la ordenación y disposición de las

neuronas en la red y sus interconexiones.

28

Básicamente, la arquitectura de una red depende de cuatro parámetros principales

(Mihaich, 2014):

1. El número de capas del sistema

2. El número de neuronas por capa

3. El grado de conectividad entre las neuronas

4. El tipo de conexiones neuronales

Las arquitecturas se clasifican de acuerdo a distintos criterios:

1. Según su estructura en capas:

1.1 Redes monocapas: Están compuestas por una única capa de neuronas entre las

cuales se establecen conexiones laterales y a veces autorrecurrentes. Este tipo de redes se

emplea en la resolución de problemas de autoasociación y clusterización

1.2 Redes multicapa: Son redes cuyas neuronas están distribuidas en varias capas: de

entrada, de salida y oculta(s). Se puede saber en qué capa está una neurona midiendo las

entradas que recibe y observando el destino de la señal que genera.

2. Según el flujo de datos de la red:

2.1 Redes unidireccionales o de propagación hacia delante (feedforward): En esta

arquitectura de redes, la salida de una neurona nunca va dirigida a una neurona de una

capa anterior o a una de su mismo nivel, sino que las salidas siempre van dirigidas a la

capa siguiente. El flujo es unidireccional, de las neuronas de entrada a las de salida.

2.2 Redes de propagación hacia atrás (feedback): En estas redes, las salidas de las

neuronas pueden servir de entrada a neuronas de capas previas o a neuronas en el mismo

nivel. Una categoría especial dentro de la arquitectura es aquella que presenta lazos

cerrados, y se denominan sistemas recurrentes.

3. Según el grado de conexión:

3.1 Redes neuronales totalmente conectadas: En estos casos, cada una de las neuronas

de una capa está conectada o bien con cada una de las neuronas de la capa siguiente o con

cada una de las neuronas de la capa precedente.

3.2 Redes neuronales parcialmente conectadas: En este caso no se da la conexión total

entre las neuronas de diferentes capas.

29

4. Según el tipo de respuesta de la red:

4.1 Redes heteroasociativas: Son redes entrenadas para que, al presentarse al sistema

un patrón A, el mismo responda con uno diferente B. Precisan de al menos dos capas, una

para captar y retener la información de entrada y otra para mantener la salida con la

información asociada. Estas redes son empleadas en computar una función matemática a

partir de las entradas que recibe, en la clasificación y en la asociación de patrones, entre

otros.

4.2 Redes autoasociativas: Redes entrenadas para que se asocie un patrón consigo

mismo. Su interés radica en que, ante la presentación de un patrón A’ modificado, por

ejemplo, con ruido, su respuesta sea el patrón original A. Su empleo está

fundamentalmente, en tareas de filtrado de información, en clustering y en problemas de

optimización.

1.7.3 Aprendizaje de la red

Uno de los principales procesos que ocurren en una red neuronal es el proceso de

aprendizaje o entrenamiento. Puede definirse como el proceso mediante el cual la red crea,

modifica o destruye los pesos asociados a las conexiones entre las neuronas.

Antes de que se pueda realizar una clasificación, la red tiene que ser entrenada. Esto

determinará el vector de pesos para cada procesador asociado a la red. Una red no

entrenada o entrenada incorrectamente dará salidas erróneas (Recio, 2010).

La red se inicializa con un conjunto de pesos arbitrario, de forma que la red de un

resultado cualquiera. Luego, cada una de las componentes del vector de características son

examinadas una a la vez por la red. Para un parámetro dado, la salida de la red es

calculada por sus ecuaciones. La salida probablemente será incorrecta, por lo que habrá

que hacer un reajuste de los pesos del sistema. Este paso se repite hasta que el error

obtenido sea menor que un parámetro dado. Con estos nuevos valores de pesos se pueden

encontrar nuevos valores de pesos extendiendo el error hacia atrás. Esta técnica se conoce

como retro-propagación (back-propagation).

30

Generalmente en una red de múltiples capas se emplea el log-sigmoid o función de

transferencia logarítmica como función de transferencia. Alternativamente, las redes

multicapa pueden usar el tan-sigmoid o función de transferencia tangencial como función

de transferencia. También se emplea la función de transferencia lineal.

Las tres funciones de transferencia descritas anteriormente son las usadas normalmente

para backpropagation, aunque pueden crearse otras funciones diferentes. Backpropagation

requiere que las funciones implementadas tengan derivada en todo su dominio.

Existen dos tipos básicos de aprendizaje que pueden ser empleados para actualizar los

pesos (Mihaich, 2014):

1. Aprendizaje supervisado: En este caso, un agente externo (supervisor o maestro),

controla el proceso de entrenamiento al establecer la respuesta que debería generar la red a

partir de una entrada determinada.

Se compara la salida de la red con la esperada, y si existen diferencias, los pesos de las

conexiones se ajustan iterativamente en base al error cometido y se repite hasta que el

resultado se aproxime al esperado con cierto grado de confianza.

2. Aprendizaje no supervisado o auto supervisado: En este caso, el entrenamiento

ocurre sin la presencia de ningún agente externo. Se basa en la introducción de cambios

aleatorios en los valores de los pesos de la red, evaluando su efecto a partir de la salida

deseada y de una determinada distribución de probabilidad.

De esta forma, el sistema es capaz de reconocer las peculiaridades o categorías

presentes en un conjunto de entrada, extrayendo rasgos o agrupando patrones según su

similitud.

Para que los resultados obtenidos sean de calidad, es necesario un cierto nivel de

redundancia. Dado que en este tipo de sistemas no existe una salida deseada, existen varias

formas de interpretar los resultados. En algunos casos, la salida magnifica el grado de

similitud entre la información que se ha presentado y la que se había procesado hasta

entonces. Otras veces, la RNA puede realizar distintos tipos de tareas tales como tareas de

categorización o tareas de codificación.

31

En base a la categorización, se puede llevar a cabo una asociación de características

(feature mapping), tal que las neuronas de salida simbolicen un mapa de las propiedades

de los datos de la entrada.

1.7.4 Evaluación del aprendizaje de la red

Uno de los principales aspectos en la construcción y desarrollo de las RNAs es la

capacidad de generalización a partir de ejemplos, evitando el simple aprendizaje de

memoria de los patrones de aprendizaje y devolviendo una respuesta correcta ante

individuos no vistos nunca por la red en su etapa de entrenamiento.

Obtener una adecuada generalización de la red resulta de mayor importancia que

conseguir un error reducido en la fase de entrenamiento, dado que esto indica la correcta

captura por parte del sistema de las relaciones subyacentes de los datos.

Tras una etapa inicial en la que la tasa de error puede oscilar, el error de aprendizaje

disminuye monótonamente mientras que el error de generalización se decrementa hasta

cierto punto en el cual comienza a incrementarse como consecuencia del excesivo ajuste

de la red a las particularidades de los patrones de entrenamiento (Mihaich, 2014).

El fenómeno anteriormente explicado responde al nombre de sobreaprendizaje

(overtraining). Puede evitarse usando procesos de validación cruzada (cross validation), es

decir, entrenando y validando a la red simultáneamente para detectar un punto óptimo de

aprendizaje.

Una vez entrenada la RNA resulta necesario evaluar los resultados obtenidos para

determinar su validez práctica. McNelis (2005) propone dos grandes criterios para realizar

la evaluación:

• Criterios ‘dentro de la muestra’

• Criterios ‘fuera de la muestra’

Los criterios ‘dentro de la muestra’ tratan de analizar la capacidad de la RNA para

caracterizar correctamente al conjunto de datos utilizado en su entrenamiento, como su

nombre indica.

Los criterios ‘fuera de la muestra’ analizan la capacidad de generalización ante la

presentación de patrones nuevos a la red. Para ello se define una función de pérdida L a

utilizar para estimar el error de predicción cometido por el modelo. Las funciones más

32

habituales son: el error absoluto o error cuadrático (en problemas de aproximación de

funciones), y el error de clasificación procedente de las tablas de contingencia o confusión

(en problemas de clasificación).

El método por defecto en Matlab para mejorar la generalización, se llama detención

temprana (early stopping). Esta técnica es automáticamente provista con todas las

funciones de creación de redes supervisadas.

En esta técnica, los datos disponibles son divididos en tres porciones o subsets. El

primer subset se emplea como el set de entrenamiento, que es usado para computar el

gradiente y actualizar las conexiones y pesos de la red. El segundo subset es el set de

validación. El error de validación es monitoreado durante el proceso de entrenamiento. El

error de validación normalmente disminuye durante la fase de entrenamiento,

conjuntamente con el error de entrenamiento. Sin embargo, una vez que la red comienza a

reprocesar los datos en otra época o iteración total de los datos, el error en el set de

validación típicamente repunta. Cuando el error de validación aumenta para un número

especificado de iteraciones (net.trainParam.max_fail), el entrenamiento se detiene y los

pesos y ajustes de la red son devueltos en el momento de mínimo error de validación.

1.8 Redes neuronales en la clasificación de imágenes aéreas en la agricultura de

precisión

El objetivo principal de este trabajo es comparar diferentes configuraciones o

arquitecturas de redes neuronales para la clasificación de imágenes aéreas en la agricultura

de precisión. El autor considera realizar una comparación entre tres arquitecturas de redes:

el perceptrón simple, el perceptrón multicapa y los mapas auto organizados o redes de

Kohonen. A continuación, se describen las características de cada una de ellas, sus

potencialidades y sus detractores.

1.8.1 Red neuronal de tipo perceptrón simple

El caso más sencillo de una red neuronal es el que presenta una sola neurona de

procesamiento. El funcionamiento de la red neuronal de tipo perceptrón simple se basa en

comparar la salida del sistema con la señal deseada. Se requiere que el algoritmo sea

33

supervisado, ya que es necesario que un agente externo determine la clase de pertenencia

de cada elemento de entrada.

La única neurona del perceptrón realiza la suma ponderada de las entradas, resta el

umbral y pasa el resultado a una función de transferencia. En el caso de que la función sea,

por ejemplo, escalón, la regla de decisión es responder uno (1) si el patrón presentado es

de la clase A, y menos uno (-1) si el patrón pertenece a la clase B. La salida dependerá de

la entrada neta (suma de las entradas ponderadas) y el valor umbral (Vera et al., 2009).

Es necesario que el problema a resolver por la red perceptrón sea linealmente

separable, es decir, que se puedan dividir las clases por una única recta en el espacio bi-

dimensional o un hiperplano en el hiperespacio de posibilidades de separación. En el caso

de que el problema no sea linealmente separable, normalmente la solución más sencilla es

agregar más neuronas de procesamiento, aunque en ese caso ya dejaría de ser un

perceptrón simple. Existen otros artificios para separar las clases, como considerar en vez

de una línea para la separación, una elipse, aunque eso requiere el ajuste de las fórmulas

asociadas. Otra posible solución, sería tratar de procesar los datos como una combinación

de perceptrones, de modo que cada una responda, o es del tipo A o no es, luego otra tome

la salida negativa de la primera y diga, es del tipo B o no, y así sucesivamente.

En estos casos, el algoritmo de aprendizaje puede ocasionar oscilaciones en los valores

de los pesos. Para contrarrestar estas variaciones surgen otras alternativas, una de ellas es

el perceptrón multicapa y el otro es el algoritmo de bolsillo (pocket algorithm).

El algoritmo de bolsillo, en efecto, lo que hace es aplicar el algoritmo perceptrón, pero

guarda los dos mejores vectores de pesos, que coinciden con los dos mejores resultados

presentados por la red. Si el vector siguiente en el algoritmo perceptrón obtiene un mejor

resultado que los almacenados, se actualizan los guardados con el obtenido. De esta

manera, siempre se encontrará una solución, aunque no sea óptima, y se evita la

inestabilidad que provoca el algoritmo perceptrón en problemas linealmente no separables

(Mihaich, 2014).

34

1.8.2 Red neuronal de tipo perceptrón multicapa

Este tipo de red está formado por múltiples capas. Esta propiedad permite resolver una

de las limitaciones del perceptrón simple, resolver problemas que no son linealmente

separables.

Consta de tres tipos de capas:

Capa de entrada: Las neuronas de esta capa reciben los datos de la entrada a la red.

No procesan ni inducen nada, solamente entregan estos datos a la siguiente capa.

Capas ocultas: En estas capas ocurre el procesamiento de la red. Mediante un

sistema de pesos y funciones de transferencia se pasan las salidas de las neuronas hacia

capas posteriores partiendo de las entradas de capas anteriores.

Capa de salida: En esta capa se encuentran las neuronas de salida de la red, que se

corresponden con las clases o categorías que se busca clasificar con la red.

Este tipo de redes tiene como características que las funciones de transferencia de las

neuronas han de ser derivables, una estructura altamente no lineal, una alta tolerancia a

fallos y que el sistema es capaz de establecer una asociación entre dos conjuntos de datos.

Entre sus limitaciones se encuentran, el hecho de que no extrapolan bien, es decir, que si

la red se entrena mal o de manera insuficiente, las salidas pueden ser imprecisas; y que la

existencia de mínimos locales en la función dificulta el entrenamiento, puesto que una vez

que el entrenamiento ha convergido a un mínimo, disminuye la tasa de aprendizaje y bien,

o se detiene, o realiza iteraciones que no contribuyen al aprendizaje, consumiendo

recursos computacionales sin objetivo alguno.

Existen varias alternativas al problema del mínimo local, entre ellas, cambiar la

topología de la red (número de capas y número de neuronas), modificar los parámetros de

aprendizaje, modificar el conjunto de entrenamiento, comenzar el entrenamiento con unos

pesos diferentes o presentar los patrones en otro orden (Mihaich, 2014)(Lizarazo, Mesa

and Cuitiva, 2005).

35

Ante la problemática de la distribución de las neuronas de la capa oculta, existen varios

inconvenientes a la hora de construir una red con muchas capas ocultas y gran cantidad de

neuronas en ellas (Lanzarini and De Giusti, 2002)(Vega, 2011):

Aumento drástico de la carga computacional, ya que implica una mayor dificultad

de implementación en tiempo real y un crecimiento considerable del tiempo de

aprendizaje de la red.

Capacidad de generalización disminuida, puesto que al aumentar la cantidad de

neuronas aumenta el número de pesos sinápticos, por lo que aumenta la cantidad de

parámetros que conforman la red. Esto permite una mejor modelación de los patrones

empleados en el entrenamiento, pero disminuye la capacidad de generalización, puesto

que un patrón no empleado en el entrenamiento del modelo tiene muchas dificultades para

ajustarse a un modelo altamente especializado (Mihaich, 2014).

1.8.3 Red neuronal de Kohonen

Este tipo de redes, conocidas como mapas de auto organización, fueron propuestas por

primera vez por el profesor finlandés Teuvo Kohonen, razón por lo cual son denominadas

en ocasiones redes o mapas de Kohonen (Kohonen, 1982). Contrariamente a las redes

neuronales perceptrón multicapa, no contienen capas intermedias, solo la capa de entrada

y salida. Tienen una propiedad importante: detectan automáticamente relaciones dentro

del conjunto de patrones de entrada a través de un aprendizaje no supervisado (Vera et al.,

2009).

Las redes de auto organización descubren rasgos comunes, regularidades y categorías

dentro de los datos de entrada, y los incorpora a su estructura interna de conexiones. Es

por tanto que se dice que la red se auto organiza en función de los estímulos que proceden

del exterior.

Esta labor se realiza mediante la técnica de “aprendizaje competitivo”, donde cada

neurona de la capa de salida disputa con todas las demás la posibilidad de obtener el

mayor impulso. Así, cuando se presenta un patrón, solo la neurona vencedora, o la

vencedora y sus vecinas, se activan, quedando las demás anuladas. Este aprendizaje

36

persigue el objetivo de categorizar o clasificar los datos que se introducen en la red en

clases o categorías. Se clasifican los estímulos similares en la misma categoría, por lo

tanto, activan la misma neurona de salida (Mihaich, 2014).

El aprendizaje competitivo es una técnica de aprendizaje no supervisado que sirve de

base para varios modelos de redes neuronales. Impulsos parecidos deben ser clasificados

como pertenecientes a una misma clase mediante un proceso de búsqueda de categorías

que la red realiza de forma independiente (García, 2013).

Cada neurona de la capa de entrada está asociada con todas las neuronas de las capas de

competición mediante los pesos sinápticos adaptativos. Las neuronas de la capa de

competición, además de recibir los datos ponderados procedentes de la capa de entrada,

tienen conexiones laterales con el resto de las neuronas de la capa y una conexión

excitatoria consigo misma. Las conexiones existentes entre las neuronas de la capa de

competición son fijas y permiten que, mediante la conexión autoexcitante, la neurona con

más activación se refuerce a sí misma, e inhiba con mayor fuerza a las demás neuronas de

la capa (Mihaich, 2014).

Por tanto, el proceso competitivo es aquel en que cada neurona busca reforzarse a sí

misma a la vez que trata de inhibir la activación de las demás. Este proceso continúa hasta

que la red se estabiliza. En ese momento, la neurona ganadora es la salida deseada.

Imagen 4. Mapa auto organizado. En este caso la zona azul es la distribución de los datos de

entrenamiento y el disco blanco en esa zona es el ejemplo actual en entrenamiento.

37

Conclusiones del capítulo:

Las redes neuronales presentan varias ventajas sobre otros tipos de clasificadores.

Poseen aprendizaje adaptativo, puesto que aprenden con la experiencia; tienen una alta

tolerancia a fallos, ya que, al destruir una porción de la red, los resultados van a ser

seguramente erróneos, pero sería capaz de seguir funcionando, y tienen un alto poder de

cómputo en tiempo real, puesto que las neuronas y sus operaciones pueden ser modeladas

en paralelo.

Por todo lo anteriormente expuesto, las RNAs destacan en el proceso de clasificación

de imágenes. Al ser clasificadores no paramétricos, no se requiere que los datos sigan una

distribución normal, puesto que, por ejemplo, para una imagen determinada, el vector de

rasgos pudiera expresar datos que para otra imagen podrían resultar incoherentes, o

incluso no existir. Esta gran adaptabilidad hace idóneo el empleo de las RNAs en

problemas de clasificación de imágenes aéreas en la agricultura de precisión, precisamente

debido a la alta variabilidad presente en las fotografías aéreas.

38

CAPÍTULO 2: MATERIALES Y MÉTODOS

En este capítulo, el autor aborda los métodos y principales materiales empleados en la

solución del objetivo. Así mismo, se hace una reseña histórica del proceso de clasificación

de imágenes aéreas y luego el mismo proceso empleando redes neuronales artificiales.

2.1 Antecedentes de la clasificación de imágenes aéreas con redes neuronales

En este epígrafe, el autor realiza una revisión bibliográfica sobre los principales trabajos

realizados orientados a la clasificación de imágenes aéreas en la agricultura de precisión, y

particularmente, a la clasificación de imágenes empleando redes neuronales artificiales.

2.1.1 Clasificación de imágenes aéreas en la agricultura de precisión

Casi desde el mismo momento en que los hermanos Wright se aventuraron a la

conquista del cielo, se han tomado fotografías de la superficie de la tierra. Diferentes fines

han movido esta labor, desde lo militar, pasando por lo científico hasta la toma de

fotografías amateur. Estas imágenes luego hay que procesarlas, pues no toda la información

contenida es útil. A continuación, se detallan algunos de los trabajos que hablan de la

clasificación de imágenes aéreas en la agricultura de precisión.

1. En el Boletín Bimensual ICT Update, auspiciado por el Centro Internacional de la

Papa, con sede en Lima, Perú, en su edición 82, publicada en abril de 2016, se publican

varios artículos que tratan de la clasificación de imágenes aéreas provenientes de vehículos

aéreos no tripulados (Greenwood et al., 2016).

Entre ellos, un artículo titulado Pioneros de los drones en Sri Lanka, del autor Salman

Siddiqui, en el que, el instituto Internacional del Manejo del Agua (IWMI), en Sri Lanka,

está empleando la tecnología de los drones para apoyar una amplia gama de estudios, como

monitoreo de cultivos, mitigación de desastres y prevención de enfermedades. Por ejemplo,

se usaron los colores RGB y los sensores de infrarrojos cercanos (NIR) para tomar

imágenes de los arrozales. Estas tecnologías tienen el potencial de ayudar a los agricultores

a detectar campos bajo estrés hídrico y ayudarlos a identificar las zonas de baja altura

propensas a estancamientos.

39

El IWMI también prepara iniciativas con drones en Nepal para mapear manantiales de

agua dulce usando un sensor térmico. El sensor térmico acondicionado en el dron puede ver

a través de la densa capa arbórea y encontrar esos manantiales, ya que su temperatura es

más baja que la de la tierra y la vegetación que los rodea.

Otro de los artículos de la citada revista, tiene como nombre Mirando desde arriba los

sistemas de riego de África,del autor Keith Cressman. En el mismo, la tecnología de los

drones proporciona a los agricultores un método rentable para la planificación de la

infraestructura. En Nigeria, ha acelerado la planificación, el diseño y la construcción de los

sistemas de riego de los arrozales. El agua es un factor decisivo para la autosuficiencia de

arroz en África. La mayoría de las plantaciones de arroz aquí son de secano, es decir,

dependiente de los regímenes de lluvia. La falta de infraestructura de riego es el obstáculo

principal para aumentar la producción de arroz en el continente. El continente negro, como

se le conoce, es el más necesitado, en cuanto a cantidad de habitantes por calidad de vida,

de un recurso tan importante como el agua, que escasea tanto en la mayor parte de la

región. Es por tanto de vital importancia hacer un uso adecuado y evitar el derroche de cada

gota del preciado líquido, tarea en la que ayudan los drones para planificar el mejor trazado

de los sistemas de riego. Y eso no es todo. Después de la etapa de planificación, el dron

ayuda a los agricultores a planificar de modo más preciso la cantidad de fertilizante y

materiales de siembra que se necesitarán para la temporada de crecimiento. Con ayuda de

los drones agrícolas, África puede dar el salto al campo en creciente desarrollo de la

agricultura de precisión.

Otro de los artículos consultados, lleva por nombre Drones que cuentan cocos¸ de los

autores Ephraim Reynolds y Faumuina Felolini Tafuna’i. En las islas de Samoa, del

Pacífico Sur, una de las principales actividades económicas, si no la principal, es la

exportación de los productos derivados del cultivo del coco. Sin embargo, tras décadas de

explotación, las plantaciones se acercan al fin de su vida. Por tanto, se hace necesario el

pronosticar y diagnosticar el ciclo de vida de los cocoteros, para garantizar que al ocurrir la

muerte de una planta ya exista una de reemplazo en condiciones de producir. Además,

estimando la edad de las palmeras en cada propiedad de los agricultores, se puede

pronosticar el rendimiento y producción del aceite de coco virgen, evaluando la factibilidad

40

de futuros proyectos empresariales y haciendo estimaciones más precisas de las ganancias

anuales esperadas.

2. En el año 2014 en la Revista de Teledetección, de la Asociación Española de

Teledetección se publica un artículo con el nombre de ¨Detección de malas hierbas en

girasol en fase temprana mediante imágenes tomadas con un vehículo aéreo no tripulado¨,

de los autores Peña, J.M; Torres-Sánchez, J; Serrano-Pérez, A; López-Granados, F.

En dicho artículo se emplea un algoritmo de clasificación de imágenes basado en

objetos, el cual se divide en dos fases principales: 1) detección de líneas de cultivo y 2)

clasificación de cultivo, malas hierbas y suelo desnudo (Peña et al., 2014).

3. En el año 2015, en la Universidad de Cundinamarca, en la Universidad Nacional

Abierta y a Distancia y en la Universidad Distrital Francisco José de Caldas en Bogotá,

Colombia, se presentó un artículo titulado Drones Aplicados a la Agricultura de Precisión,

de los autores Adrián González, Gelberth Amarillo, Milton Amarillo y Francisco

Sarmiento.

En este artículo se presentan los drones como una tecnología de ayuda a los múltiples

procesos de la agricultura, a captar información importante y a evaluar las condiciones en

terrenos monitoreados, gracias a sus grandes ventajas para sobrevolar los campos y

cultivos.

Mediante las imágenes tomadas con los drones se pueden generar diagnósticos que

permiten diversas operaciones, tales como, gestiones hídricas, fertilizantes, detección de

enfermedades y cosechas selectivas que, a su vez, dan paso a la producción de mapas

agronómicos los cuales representan claramente los problemas y los avances de los cultivos

(Amarillo, Amarillo and Sarmiento, 2015).

4. En el año 2015, en la Universidad de Pamplona, en Santander, Colombia, se

presenta un artículo con título “Uso de drones para el análisis de imágenes multiespectrales

en agricultura de precisión”, por los autores Jemay Mosquera, Viviana Berrio y Diego

Alzate.

En el mismo se presentan las ventajas de la utilización de los vehículos aéreos no

tripulados como una alternativa al proceso de planificación de las actividades agrícolas, la

41

predicción de daños y la toma de decisiones adecuadas ante situaciones que afectan el

desarrollo de los cultivos de papa (Berrío, Mosquera and Alzate, 2015).

2.1.2 Clasificación de imágenes aéreas en la agricultura de precisión empleando

redes neuronales artificiales

Las redes neuronales han sido empleadas en procesos de clasificación casi desde sus

mismos orígenes. A continuación, se presenta una breve reseña de los artículos consultados

por el autor.

1. En el año 2017, en el Instituto Politécnico Nacional, de la Ciudad De México, se

presenta un artículo titulado: Clasificación de Imágenes Urbanas Aéreas: Comparación

entre Descriptores de Bajo Nivel y Aprendizaje Profundo, de los autores Antonio Artista-

Jalife, Gustavo Calderón-Auza, Atoany Fierro-Radilla y Mariko Nakano.

En este artículo, si bien no está dirigido al ámbito de la agricultura de precisión, se

realiza una comparativa entre dos métodos de clasificación, los descriptores de bajo nivel

montados en una máquina de soporte vectorial y el aprendizaje profundo (deep learning),

que, aunque no está dentro de la categoría de las redes neuronales, es otro de los

paradigmas de la Inteligencia Artificial (Arista et al., 2017).

2. En el año 2014, en el Instituto Politécnico Nacional, de la Ciudad de México, se

presenta la Tesis: Aplicación de redes neuronales para la identificación de objetos en

tiempo real en imágenes tomadas por un quadrotor, del Ingeniero Gerardo Hernández

Hernández.

En este artículo, se proponen e implementan un conjunto de técnicas para la

identificación de objetos en tiempo real con el objetivo de posibilitar el uso de herramientas

como son los drones de tipo quadrotor para tareas como la vigilancia. Para ello, se realiza

una comparación entre diferentes tipos de clasificadores estadísticos y redes neuronales

(Hernández, 2014).

3. En el año 2016, en el Centro de Investigación y Desarrollo Tecnológico, en

Morelos, México, se presenta el artículo: Clasificación de patrones mediante una red

neuronal pulsante, de los autores Christian Hernández-Becerra y Manuel Mejía-Lavalle.

42

En este se propone el estudio de un paradigma relativamente nuevo en el mundo de las

redes neuronales, las redes neuronales pulsantes, las cuales, mediante funciones

matemáticas más complejas, emulan de una mejor forma la actividad de las neuronas

biológicas humanas.

Se muestra como, con el uso de una sola capa de neuronas pulsantes, más aún, con una

sola neurona, es posible hacer una clasificación de patrones, ya sea de una función binaria

como la función XOR o bien de una base de datos de cientos de características. Los

resultados son alentadores (Hernández and Mejías, 2016)

4. En el año 2014, en la Universidad Nacional de Córdoba, en Argentina, se presenta

la Tesis: Aplicaciones de redes neuronales en la clasificación de imágenes, de la autora

Florencia Mihaich.

En ese trabajo se expone un marco teórico sobre la categorización de imágenes digitales,

y sobre la estructura y funcionamiento de las redes perceptrón multicapa y SOM (Self-

Organized Maps), o redes de Kohonen (Mihaich, 2014).

5. En el año 2010, en la Universidad Politécnica de Valencia, en España, se presenta la

Tesis: Técnicas de extracción de características y clasificación de imágenes orientada a

objetos aplicadas a la actualización de bases de datos de uso del suelo, del autor Jorge Abel

Recio Recio.

En ella se abordan varios descriptores para la elaboración de un software dirigido a

actualizar automáticamente una base de datos de ocupación del suelo. Entre ellos se

enfatiza en el empleo de las redes neuronales por su potencial en la clasificación de

imágenes (Recio, 2010).

2.2 Descripción de los materiales y métodos empleados

En este epígrafe el autor expone una explicación acerca de los principales materiales y

métodos empleados en la resolución del problema planteado.

2.2.1 Dispositivo de cálculo

Todo el proceso, que va desde el procesamiento de las imágenes hasta el entrenamiento

y evaluación de las redes, se realizó en una computadora con procesador Intel TM Core(R)

i3- 2370M, con 2.40 GHz como frecuencia máxima del reloj y 3 MB de caché de L3. El

43

equipo también cuenta con 4 GB de RAM y 465,76 GB de almacenamiento masivo en

disco duro.

2.2.2 Base de conocimiento

Para entrenar la primera red se utilizaron 2060 imágenes. Se distribuyen en 1096

imágenes de la clase no caña y 964 en la clase caña. Para su evaluación se emplean 100

elementos de la clase no caña y 100 elementos de la clase caña. Las imágenes fueron

tomadas a diferentes alturas, tomándose muestras representativas de cada altura para que la

red aprenda a reconocerlas.

Para entrenar la segunda red se emplearon 50 imágenes pertenecientes a la clase caña

madura y 50 imágenes pertenecientes a la clase caña verde. Para su posterior evaluación se

utilizaron 18 imágenes de la clase caña verde y 10 de la clase caña madura.

Las dimensiones de las imágenes procesadas son de (200 x 280 x 3), teniendo los tres

canales RGB con información. Se hizo de esta forma para que el procesamiento fuera

mejor, puesto que al aumentar el tamaño de la ventana se incluye más heterogeneidad

dentro de la imagen, y por la forma en que se extraen los rasgos de las imágenes pudiera

conducir a errores de clasificación.

A cada una de las imágenes se le realizó un proceso de mejora del histograma

empleando el algoritmo CLAHE (Contrast-limited adaptative histogram equalization). La

ecualización adaptativa del histograma mejora el contraste de la imagen, y difiere de la

ecualización del histograma ordinaria en que computa varios histogramas, donde cada uno

corresponde a una región distinta de la imagen. La ecualización adaptativa del histograma

en su forma original tiende a amplificar el contraste en regiones homogéneas de la imagen,

porque el histograma está altamente concentrado en esas regiones, haciendo que se

amplifique el ruido. La ecualización adaptativa del histograma limitada por contraste es una

variante en la que la ecualización de contraste está determinada por la pendiente de la

función de transformación. El CLAHE limita la amplificación al recortar el histograma en

un valor predefinido. El valor al que se recorta el histograma, llamado límite de clip,

44

depende de la normalización del histograma y, por lo tanto, del tamaño de la región de

vecindad. La función que realiza esta tarea es adapthisteq.

Una muestra de la aplicación de esta función es:

Imagen 5. Imagen mejorada con el algoritmo CLAHE

2.2.3 Entorno de Desarrollo Interactivo (IDE)

El software empleado para el manejo y procesamiento de las imágenes y las redes

neuronales es el MatLab (Matrix Laboratory). Es un software matemático que proporciona

un entorno de desarrollo interactivo con un lenguaje de programación propio, el lenguaje

M.

El software tiene, entre sus prestaciones básicas el trabajo con matrices, la operación y

representación de funciones, la creación de interfaces gráficas de usuario (GUI, Graphic

User Interface). Además, las prestaciones del software se pueden ampliar con la instalación

de toolboxes, que son colecciones de códigos especializados por categorías (Goering,

2004).

En el caso que ocupa esta tesis, los principales toolboxes empleados son:

El Neural Network Toolbox, que provee algoritmos, modelos pre entrenados y

aplicaciones para crear, entrenar, visualizar y simular redes profundas y poco profundas. Se

45

puede realizar clasificación, regresión, clustering, reducción de dimensionalidad,

pronósticos de series de tiempo y control y modelado de sistemas dinámicos.

El Computer Vision Toolbox, que provee algoritmos, funciones y aplicaciones para

simular la visión por computador y los sistemas de procesamiento de video. Permite

realizar detección de características, extracción y comparación. También posibilita la

detección y el seguimiento de objetos.

El Image Processing Toolbox, proporciona un set global de algoritmos de referencia

estándares para el procesamiento, análisis, visualización de imágenes y desarrollo de

algoritmos. Permite realizar segmentación de imágenes, mejora de imágenes, reducción de

ruido, transformaciones geométricas, registración de imágenes y procesamiento de

imágenes 3D.

También se empleó para el manejo del volumen de datos y trabajo con redes neuronales

el software Waikato Environment for Knowledge Analysis (WEKA). Este software es una

plataforma para el aprendizaje automatizado y la minería de datos. Está escrito en lenguaje

Java (Holmes, Donkin and Witten, 1994).

Entre sus prestaciones se tienen el procesamiento estadístico de grandes volúmenes de

datos, la creación y simulación de algoritmos de aprendizaje automático.

Weka también soporta varias tareas estándares de minería de datos, incluyendo el

preprocesamiento de datos, el clustering, la clasificación, la regresión, etc. Weka también

proporciona acceso a base de datos vía SQL gracias a la JDBC (Java Database

Connectivity) y puede procesar el resultado devuelto por una consulta hecha a la base de

datos.

2.2.4 Algoritmos empleados

Para la conformación del vector de características de la imagen se consideraron tres

propiedades de las mismas: color, forma y textura.

El vector conformado tiene la forma:

[Características de color, Características de forma, Características de textura].

46

Extracción de rasgos de color

Para procesar los rasgos de color se diseñó la función extractColorFeatures. Esta

función recibe como parámetros una imagen en RGB. Primeramente, se guardan en tres

variables, RHist, GHist, BHist, el histograma de cada canal representado en 255 bins.

Luego se crean tres variables denominadas NRHist, NGHist, NBHist, asociadas con los

histogramas de cada canal, que van a guardar la información de cada histograma procesado.

Posteriormente, se recorren cada uno de los histogramas, y si el valor en la posición

actual es cero, en la variable asociada al histograma correspondiente se guarda un cero, en

caso contrario, se almacena el valor de la cantidad de píxeles con ese nivel de intensidad

dividido por la suma de los valores de la cantidad de píxeles en la misma posición en cada

uno de los histogramas.

La fórmula empleada es (7):

𝑁𝑋𝐻𝑖𝑠𝑡(𝑖) = {

0, 𝑠𝑖 𝑋𝐻𝑖𝑠𝑡(𝑖) = 0 𝑋𝐻𝑖𝑠𝑡(𝑖)

𝑅𝐻𝑖𝑠𝑡(𝑖) + 𝐺𝐻𝑖𝑠𝑡(𝑖) + 𝐵𝐻𝑖𝑠𝑡(𝑖), 𝑠𝑖 𝑋𝐻𝑖𝑠𝑡(𝑖) ≠ 0

(7)

donde X representa el canal del histograma en análisis actualmente.

Extracción de rasgos de forma

Para la extracción de rasgos de forma, se diseñó e implementó la función

extractShapeFeatures. Esta función recibe como parámetros una imagen en RGB.

Primeramente, se llama la función rgb2gray, que convierte la imagen en una imagen de

intensidad, es decir, en escala de grises. Posteriormente, se extraen los bordes de la imagen

empleando la función edge, con el parámetro canny. Esta función lo que hace es encontrar

los bordes dentro de la imagen empleando el método de Canny. Dicho método consiste en

encontrar bordes buscando los máximos locales del gradiente de la imagen. La función

edge calcula el gradiente usando la derivada de un filtro Gaussiano. La función con el

parámetro canny usa dos umbrales para detectar bordes débiles y fuertes, incluyendo los

bordes débiles si están conectados con bordes fuertes. Usando dos umbrales, el método de

47

Canny es más resistente a un “engaño” por el ruido y más potente para detectar bordes

débiles verdaderos.

Luego, con la imagen obtenida anteriormente, se realiza un complemento. Esto

básicamente lo que hace es mostrar la imagen en negativo. Para que se entienda mejor el

concepto se adjunta una imagen obtenida tras encontrar los bordes y luego la misma imagen

después de complementarla.

Imagen 6. Imagen con bordes detectados (izquierda) e imagen complementaria (derecha).

Luego de tener almacenada la imagen complementaria con los bordes detectados, se

emplea la función regionprops. Dicha función mide las propiedades de las regiones de la

imagen. La función retorna hasta 22 medidas de forma, entre ellas, el área, que es la

cantidad de píxeles que están dentro de la región, el centroide, que es el centro de masas de

la región, la excentricidad, que no es más que la excentricidad de la elipse que tiene el

mismo segundo momento que la región. Este valor oscila entre cero y uno. En el caso de

que sea cero, la elipse es un círculo, y si es uno, la elipse es un segmento.

La función también detecta cinco medidas de valor de los píxeles. Entre ellas, el valor

del píxel con mayor intensidad en la imagen, el píxel de menor intensidad, el valor del píxel

de menor intensidad, el valor promedio de la intensidad de todos los píxeles de la región.

En el caso que ocupa a este trabajo, solo se trabajan las propiedades área, perímetro, el

centro de masas y la excentridad de la elipse que envuelve la región.

48

Luego de tener el área de la región, que como se dijo anteriormente, es la cantidad de

píxeles dentro de la región, y el perímetro, que es la cantidad de píxeles que sirven de

frontera a la región, se calcula la relación CirRatio, que se expresa por la fórmula (8):

𝐶𝑖𝑟𝑅𝑎𝑡𝑖𝑜 =𝐴𝑟𝑒𝑎

𝑃𝑒𝑟𝑖𝑚𝑒𝑡𝑒𝑟2 (8)

Luego se almacena en la estructura de salida de la función el parámetro CirRatio

calculado, el centroide, con sus coordenadas y la excentricidad.

Extracción de rasgos de textura

Para extraer los rasgos de textura, se implementó la función extractTextureFeatures.

Dicha función recibe como parámetro una imagen.

Primeramente, el algoritmo transforma la imagen en una imagen de intensidad. Luego,

aplicando la función graycoprops, se obtienen las propiedades estadísticas de la matriz de

co-ocurrencia de niveles de gris (GLCM, Gray Level Co-occurrence Matrix). Esta matriz se

emplea como descriptor de textura, puesto que en ella se almacenan propiedades

estadísticas que controlan la textura de la imagen. La matriz se calcula controlando cada

cuanto ocurre un píxel con valor de intensidad i en la vecindad de un píxel j. Cada elemento

en la matriz resultante es simplemente la suma la suma del número de veces que el píxel

con valor de intensidad i ocurre en la relación espacial especificada de un píxel con valor j

de la imagen de entrada (Haralick, Shanmugan and Dinstein, 1973).

El número de niveles de gris determina las dimensiones de la GLCM. Dicha matriz

puede revelar ciertas propiedades acerca de la distribución espacial de la textura en los

niveles de grises de la imagen. Por ejemplo, si la mayor parte de las entradas de la GLCM

se concentran cerca de la diagonal, la textura presenta una alta homogeneidad.

Para examinar algunas de las propiedades estadísticas de la textura de la GLCM se

empleala función graycoprops. Dicha función realiza el cálculo implícito de la matriz de

co-ocurrencia, y luego extrae de ella cuatro propiedades estadísticas que describen la

49

textura en la imagen. Dichas propiedades son contraste, correlación, energía y

homogeneidad (Mathworks, 2017).

El contraste, establece la diferencia de la frecuencia entre valores altos y bajos de nivel

de gris. Muchos valores fuera de la diagonal principal de la matriz son indicativos de

valores altos del contraste. La fórmula (9) define el cálculo del contraste:

∑ ∑ (𝑖 − 𝑗)2. 𝑝(𝑖, 𝑗)

𝑁𝑔−1

𝑗=0

𝑁𝑔−1

𝑖=0

(9)

donde Ng es la cantidad de niveles de gris. El contraste es cero para una imagen

constante, es decir, solo un color homogéneo. El contraste también se conoce como

varianza e inercia. El rango del contraste es [0,size(GLCM,1)^2], siendo size(GLCM,1), la

dimensión de la matriz de co-ocurrencia de niveles de gris.

La correlación, retorna una medida de cuan relacionado está un píxel con su vecindario

sobre toda la imagen. La fórmula matemática asociada es (10):

∑ ∑ (𝑖 − 𝜇) ∗ (𝑗 − 𝜇) ∗ 𝜌(𝑖, 𝑗)𝑁𝑔−1𝑗=0

𝑁𝑔−1𝑖=0

∑ ∑ (𝑖 − 𝜇)2 ∗ 𝜌(𝑖, 𝑗)𝑁𝑔−1𝑗=0

𝑁𝑔−1𝑖=0

(10)

La correlación es uno o menos uno para imágenes correlacionadas perfectamente

positivas o perfectamente negativas. La correlación es (NAN, not a number) para imágenes

constantes. La correlación devuelve resultados en el rango [-1,1].

La energía es la propiedad que mide la homogeneidad textural de la imagen. Los valores

más altos corresponden a distribuciones de los niveles de gris constantes, siendo uno para

una imagen constante. Para calcular la energía la fórmula es (11):

∑ ∑ 𝑝(𝑖, 𝑗)2

𝑁𝑔−1

𝑗=0

𝑁𝑔−1

𝑖=0

(11)

50

La energía también se conoce con el nombre de uniformidad, uniformidad de la energía

y segundo momento angular. La energía se mueve por el rango [0,1].

La homogeneidad, es una propiedad que está inversamente relacionada con el contraste.

Valores altos indican que la frecuencia de ocurrencia en la imagen de niveles de intensidad

similares es elevada, discriminando zonas de variación de niveles de gris entre píxeles. La

homogeneidad es uno para una GLCM diagonal, es decir, sin valores fuera de la diagonal

principal. La fórmula para el cálculo de la homogeneidad es (12):

∑ ∑𝜌(𝑖, 𝑗)

1 + |𝑖 − 𝑗|

𝑁𝑔−1

𝑗=0

𝑁𝑔−1

𝑖=0

(12)

La homogeneidad también se conoce con el nombre de momento de diferencia inverso y

presenta valores en el rango [0,1].

Luego de operar con la matriz de co-ocurrencia de niveles de gris, el algoritmo de

extracción de rasgos de textura extrae el patrón binario local (LBP, local binary pattern) de

la imagen. El patrón binario codifica información de textura, de forma que informa de la

relación de cada píxel con sus vecinos. El LBP básico, guarda el valor del bit b de forma:

Imagen 7. Patrón binario local. Adaptado de López, 2016

Así, el patrón binario local es un descriptor de textura invariante a cambios monotónicos

de niveles de gris y a la traslación. El LBP se representa como un histograma normalizado,

51

producto de representar la cantidad de veces que apareció un nivel de gris luego de aplicar

el LBP de la imagen. Se normaliza para representarlo en la escala [0,1].

Posteriormente, se calcula y se guarda en una variable struct el histograma del LBP

representado en 8 celdas (bins), normalizado por la cantidad de elementos del LBP.

Una vez hecho todo esto, se guarda en una estructura de tipo vector la información

extraída a la textura, con la forma: contraste, correlación, energía, homogeneidad, todos

estos valores extraídos de la GLCM, luego cada uno de los valores almacenados en la

variable struct.

Una vez conformados los vectores de rasgos de color, forma y textura, se concatenan en

uno solo para construir el vector de rasgos asociado a la imagen. Dicho vector es el que se

usa como entrada a la red neuronal, y, por tanto, al tener 19 componentes, determina que el

número de neuronas de la capa de entrada de la red neuronal sea 19 .

Para ello se creó la función extractAllFeatures, que internamente lo que hace es invocar

a las funciones extractColorFeatures, extractTextureFeatures y extractShapeFeatures. El

resultado lo concatena en un solo vector.

2.3 Redes neuronales para la clasificación de imágenes aéreas en la agricultura de

precisión

El objetivo del presente trabajo es establecer una comparación entre diferentes

arquitecturas de redes neuronales en la clasificación de imágenes aéreas en la agricultura de

precisión, exactamente en la clasificación de caña de azúcar.

Para ello se crearon tres configuraciones de redes neuronales:

Red neuronal perceptrón simple

Red neuronal perceptrón multicapa

Red neuronal de Kohonen o mapas auto organizados

Para realizar la comparación se crea una red de cada tipo por cada una de las siguientes

tareas:

52

1. Clasificar una imagen en caña u otro objeto.

2. Clasificar una imagen de caña en caña verde o caña madura

Para el entrenamiento de todas las redes neuronales se emplearon las funciones de

Matlab fullfile e imageDatastore. La primera, guarda en una variable una dirección o path,

que en este caso es el origen de las imágenes que sirven de base al entrenamiento y

evaluación. La segunda función, recibe como parámetro el path asociado a la variable

anterior, y con él, crea una estructura que almacena la dirección absoluta de cada imagen.

Además, se pueden crear las etiquetas de las imágenes en base al nombre del directorio en

que se encuentren.

La sintaxis de la función fullfile es la siguiente:

f = fullfile (filepart1, …, filepartN), donde cada filepart es el nombre de una porción del

directorio producto de descomponer la dirección absoluta.

Por ejemplo, en este caso sería:

f = fullfile ('D:', 'Tesis', 'Dataset de imágenes', 'Training');

La sintaxis de la función imageDatastore es la siguiente:

str = imageDatastore (location, name, value), donde location es una dirección de origen

de los datos de imágenes. name y value especifican parámetros adicionales. Estos

parámetros son:

FileExtensions, que son las extensiones de las imágenes. Su valor es un vector de

caracteres. Ejemplo: 'FileExtensions', 'jpg'

LabelSource, origen de las etiquetas asociadas a las imágenes. Su valor es 'none',

que indica que no se etiquetan automáticamente las imágenes y 'foldernames', que indica

que las imágenes deben tener una etiqueta asociada con el nombre del directorio en que se

encuentran.

IncludeSubFolders, que es una bandera para la inclusión de las subcarpetas

presentes en el path, es decir, que se van a incluir todas las imágenes presentes en los

53

subdirectorios de la dirección actual. Su valor es booleano, es decir, true o false, o cero (0)

o uno (1).

El autor considera el empleo de estas funciones por su eficiencia, puesto que, en un

ImageDatastore, lo que reside en memoria es la dirección de la imagen, y en caso de

grandes volúmenes de imágenes, de todas ellas. En el caso de que se desee trabajar con una

o varias imágenes, se leen directamente del ImageDatastore, y solamente se guardan en

memoria las necesarias. Esto evidentemente ahorra recursos computacionales.

Las redes neuronales descritas a continuación son idénticas en cada una de las tareas de

clasificación, solamente cambian los dataset de imágenes. Así, por proporcionar un ahorro

en la extensión solo se describen las redes neuronales para la detección de caña. Las otras

redes evaluadas son idénticas en código, simplemente reciben otros conjuntos de

entrenamiento y evaluación, los correspondientes a caña verde y caña madura.

2.3.1 Red neuronal de tipo perceptrón simple

El primer tipo de red neuronal a analizar es el perceptrón simple. Para ello:

Primeramente, se cargan las imágenes con fullfile e ImageDatastore. Luego se crea una

matriz de características, donde cada una de las filas es el vector de características asociado

a cada imagen. Por tanto, la matriz inicialmente se reserva en memoria empleando la

función zeros y size, que justamente lo que hace es crear una estructura con dimensión

determinada en este caso, por el size del ImageDatastore, es decir, la cantidad de imágenes

archivadas.

Las sintaxis son las siguientes:

[dim, ~]=size (DataSet.Files), donde ~ indica que el segundo valor devuelto por size no

se almacene. En este caso, su valor es uno (1), por tanto, no se requiere.

matrizCaracteristicas = zeros(dim,19), donde dim es el valor calculado anteriormente, y

el 19 es la longitud de cada uno de los vectores de características, como se fundamentó

anteriormente.

A continuación, para cada una de las imágenes presentes en el ImageDatastore, se

calcula el vector de características con la función extractAllFeatures(imagen), donde

54

imagen es la imagen actual obtenida del ImageDatastore con la función readImage. Dicha

función recibe como parámetros un ImageDatastore y un entero positivo, que indica la

posición en el arreglo de direcciones de la imagen actual. Al obtener la imagen, se le

extraen los rasgos y se almacenan en la matriz. Seguidamente, se crea una red neuronal de

tipo perceptron. Se definen los parámetros de entrenamiento con la función net.trainParam,

se establece el número máximo de veces que la red va a iterar sin encontrar un mejor

coeficiente de aprendizaje, con max_fail = 5, se establece la cantidad de épocas a 100. Se

emplea la función dividerand como función de división del dataset. Esta función segmenta

en tres porciones los datos, con sus parámetros por defecto, en entrenamiento deja el 60%

de los datos de origen, en validación un 15% y en evaluación un 15%. Esta división se

realiza de forma aleatoria, no secuencial. Se establece la función de evaluación mse, que es

la función de error del rendimiento de mínimo cuadrático normalizado. Una vez

establecidos los parámetros, se entrena la red con la matriz de rasgos obtenida y las

etiquetas asociadas almacenadas. El entrenamiento se realiza de forma visual para poder

visualizar el progreso. Una vez entrenada la red, se procede a realizar la evaluación de la

red con imágenes de otro dataset. Para ello, se procede de la misma forma que con el

dataset de entrenamiento, se carga el path del dataset de prueba y luego se almacena en un

ImageDatastore las imágenes del dataset de prueba. Luego, se almacenan las etiquetas

asociadas para poderlas comparar con la salida de la red. Para cada una de las imágenes, se

calcula su vector de rasgos y se recibe la salida de la red con ese vector. Esas salidas se

almacenan para el cálculo del error. Una vez finalizado el proceso de salidas de la red, se

guarda en una matriz la confusión devuelta por la red, el porcentaje de falsos negativos, el

porcentaje de falsos positivos, el porcentaje de verdaderos negativos y el porcentaje de

verdaderos positivos.

2.3.2 Red neuronal de tipo perceptrón multicapa

A continuación, el segundo tipo de redes neuronales a analizar es el perceptrón

multicapa. Para ello:

Se carga el dataset de imágenes con las funciones fullfile y ImageDatastore. Se crea una

matriz de características de dimensión size (ImageDataset.Files) * 19 que es el número de

55

rasgos del vector de características y el vector de etiquetas asociadas. Para cada una de las

imágenes del ImageDataset, se extraen los rasgos con la función ExtractAllFeatures, y se

almacenan en la matriz de características. A la misma vez que se carga una imagen con

readImage, se almacena en el vector de etiquetas la etiqueta asociada con el nombre de la

carpeta que contiene la imagen. Posteriormente se crea una red de tipo feedforwardnet.

Esto quiere decir que los resultados de cada capa o nivel se transmitirán a la capa siguiente,

nunca a neuronas de la misma capa o capas anteriores. Se definen las capas o niveles y las

propiedades asociadas. Se crea una capa oculta con 10 neuronas, función de entrenamiento

trainscg, gradiente conjugado escalado. Se entrena la red con la matriz obtenida y las

etiquetas almacenadas. Para medir el rendimiento de la red con otras imágenes, se carga un

dataset de prueba. Para cada imagen se le extraen las características y se guarda en un

vector las salidas de la red. Luego, se guarda en una matriz la confusión devuelta por la

red, el porcentaje de falsos negativos, el porcentaje de falsos positivos, el porcentaje de

verdaderos negativos y el porcentaje de verdaderos positivos.

2.3.3 Red neuronal de Kohonen o Mapa Auto-Organizado

Este tipo de redes basa su funcionamiento en el sistema competitivo, donde cada

neurona busca reforzar su activación en base a los parámetros y disminuir la activación de

las demás neuronas.

Para obtener los resultados, se carga el dataset de imágenes con fullfile e

imageDatastore. En este caso, como el entrenamiento de la red es no supervisado, no se

requieren las etiquetas de clases de las imágenes, por lo que la función imageDatastore no

contiene el parámetro LabelSource. Se crea una matriz para almacenar las características de

cada una de las imágenes, con dimensión size (imageDataset.Files),19. El 19 es la cantidad

de características del vector de rasgos asociado a cada imagen. Para cada una de las

imágenes se calcula su correspondiente vector de características con la función

extractAllFeatures. Luego, por cada uno de los vectores obtenidos, se almacena su

información en la matriz de características. Se crea una red neuronal de tipo competLayer,

que basa su funcionamiento en calcular cada vez que se presenta un ejemplo al sistema, la

distancia euclidiana del mismo a cada uno de los vectores de pesos. La neurona con el

56

vector de pesos con la menor distancia al ejemplo, refuerza sus conexiones, a la vez que

inhibe a las más distanciadas. Así, finalmente, cuando se presente un ejemplo, se activará la

neurona o las neuronas más cercanas en distancia euclidiana al ejemplo. La red

competLayer requiere que se le pase un parámetro que indique la cantidad de clases que se

quieren reconocer dentro de los datos. En el caso que ocupa el presente trabajo esa cantidad

de clases es dos (2), ya sea caña o no caña, o caña verde o caña madura. Se modifican los

parámetros de entrenamiento. En este caso, se establece el número de épocas en 100. Se

entrena la red neuronal con la matriz obtenida. No es necesario proporcionarle el vector de

etiquetas, puesto que el aprendizaje que realiza la red es no supervisado. Para medir el

rendimiento de la red, se carga un dataset completamente nuevo para la red. En este caso sí

se requieren las etiquetas asociadas a las imágenes puesto que se van a comparar con los

resultados devueltos por la red. Así, con fullfile e imageDatastore con el parámetro

LabelSource se almacenan las imágenes del dataset. Para cada una de las imágenes, se

guarda en un vector la salida asociada devuelta por la red. Para calcular el error, se guarda

en una matriz la confusión devuelta por la red, el porcentaje de falsos negativos, el

porcentaje de falsos positivos, el porcentaje de verdaderos negativos y el porcentaje de

verdaderos positivos.

Conclusiones del capítulo Varios autores han dedicado sus investigaciones a extender el empleo de clasificadores no

paramétricos como las redes neuronales al campo de la clasificación de imágenes.

El autor propone en este capítulo una metodología para su extensión al campo de la

clasificación de imágenes aéreas en la agricultura de precisión. Se logró construir una

matriz de características para entrenar y evaluar las redes a partir de los rasgos extraídos a

las imágenes aéreas.

57

CAPÍTULO 3: ANÁLISIS DE LOS RESULTADOS OBTENIDOS

En este capítulo se exponen los resultados obtenidos luego del proceso de ejecución de

los métodos propuestos como vía de resolución al problema planteado.

3.1 Detección de caña en imágenes aéreas

En el caso de la detección de caña, se obtuvieron los siguientes resultados:

1. Pre-procesamiento de las imágenes: Las imágenes iniciales fueron seccionadas con

una ventana de 280x200 píxeles (px), obteniendo un total de 2160 sub-imágenes.

Seguidamente, a cada una de estas sub-imágenes se le realizó un proceso de mejora del

histograma, con el fin de resaltar las características de las imágenes para una mejor

realización del proceso de la extracción de rasgos. Luego de concluido este proceso se

construyeron dos conjuntos de imágenes para el trabajo con las redes neuronales: el de

entrenamiento y el de evaluación. En cada uno de estos conjuntos se confeccionaron dos

sub-conjuntos, el primero asociado a imágenes con ausencia de caña y el segundo a

imágenes con presencia de la caña.

2. Extracción de rasgos: Para cada una de las imágenes del conjunto de entrenamiento

se realizó un proceso de extracción de rasgos, obteniendo una matriz donde cada fila

contiene los 19 rasgos asociados a cada imagen. De igual modo se construyó un arreglo de

etiquetas para el entrenamiento de las redes neuronales de aprendizaje supervisado,

obteniéndose un vector donde cada posición representa la clase asociada con la imagen

correspondiente. Este proceso se realizó también a cada una de las imágenes del conjunto

de evaluación.

3. Clasificación: Se construyeron tres redes neuronales que responden a las tres

topologías propuestas para su comparación:

De la arquitectura perceptrón simple se creó una red de tipo perceptron.

De la topología perceptrón multicapa se creó una red de tipo feedforward.

De los mapas auto organizados se creó una red de tipo selforgmap.

58

Posterior a la creación de cada una estas redes se llevó a cabo el proceso de

entrenamiento, ejecutado 1000 veces con los rasgos y las etiquetas obtenidas del conjunto

de entrenamiento y evaluado luego de cada entrenamiento con los datos del conjunto de

evaluación, almacenando los resultados en cada una de sus ejecuciones (Ver anexo 1). Cada

una de estas redes realiza una auto evaluación de su aprendizaje con una porción, el 30% de

los datos de entrenamiento. Luego del proceso de entrenamiento se obtienen redes

neuronales entrenadas capaces de clasificar una imagen y detectar si hay presencia o no de

caña.

4. A estos resultados se les comprobó si su distribución era normal para aplicarle

pruebas paramétricas. Con el software IBM SPSSal aplicarle una prueba de Kolmogórov-

Smirnov, la significación asintótica es 0 para todos los datos, rechazando la hipótesis nula y

concluyendo que los datos no seguían una distribución normal.

Prueba de Kolmogorov-Smirnov para una muestra

confusión fn Fp vn vp

N 3000 3000 3000 3000 3000

Parámetros

normalesa,b

Media ,4140 33,6995 33,6995 49,6338 49,6338

Desviación típica ,27317 28,12114 28,12114 32,37472 32,37472

Diferencias más

extremas

Absoluta ,283 ,292 ,292 ,409 ,409

Positiva ,227 ,292 ,292 ,409 ,409

Negativa -,283 -,243 -,243 -,241 -,241

Z de Kolmogorov-Smirnov 15,513 15,967 15,967 22,401 22,401

Sig. asintót. (bilateral) ,000 ,000 ,000 ,000 ,000

a. La distribución de contraste es la Normal.

b. Se han calculado a partir de los datos.

Por tanto, se les aplicó una prueba no paramétrica para determinar si existían diferencias

significativas entre las medias de cada grupo. En este caso se aplicó una prueba para varias

muestras independientes, específicamente la prueba H de Kruskall-Wallis.

59

Estadísticos de contrastea,b

confusión Fn fp Vn vp

Chi-cuadrado 2849,728 2844,474 2844,474 2844,474 2844,474

Gl 2 2 2 2 2

Sig. asintót. ,000 ,000 ,000 ,000 ,000

a. Prueba de Kruskal-Wallis

b. Variable de agrupación: grupo

La significación asintótica es cero, lo que deriva en que se rechace la hipótesis nula, y, por

tanto, se arriba a la conclusión de que, al menos una de las medias tiene una diferencia

significativa con respecto al resto.

Para identificar la media del grupo que difiere del resto se emplea la prueba U de Mann-

Whitney (Ver anexo 4) y se determinó que existían diferencias significativas entre todas las

medias de los grupos de datos. En ese caso, se puede emplear un estimador puntual para

determinar el rendimiento de cada una de las redes. Para eso, se calculó la media de cada

uno de los grupos de datos y se representaron en un gráfico detallado a continuación.

Donde uno (1) representa el porcentaje de falsos negativos, dos (2) representa el

porcentaje de falsos positivos, tres (3) representa el porcentaje de verdaderos negativos y

cuatro (4) el porcentaje de verdaderos positivos.

60

Gráfico 1. Media aritmética del porcentaje de los errores de clasificación en la detección de caña

El promedio del procentaje de falsos negativos y falsos positivos de las redes multicapa

es sustancialmente menor que el promedio de clasificación de las otras dos redes. A la

misma vez, las medias de los porcentajes de clasificación correcta son mucho mayores que

los promedios de clasificación correcta de las otras dos redes. Por tanto, se arriba a la

consecuencia de que para la detección de la caña la mejor arquitectura de redes neuronales

es la de perceptrón multicapa.

3.2 Clasificación de los estadios de la caña

En el caso de la clasificación de la caña en verde o madura, los resultados fueron los

siguientes:

1. Pre-procesamiento de las imágenes: Las imágenes iniciales fueron seccionadas con

una ventana de 280x200 píxeles (px), obteniendo un total de 128 sub-imágenes.

Seguidamente, a cada una de estas sub-imágenes se le realizó un proceso de mejora del

histograma, con el fin de resaltar las características de las imágenes para una mejor

realización del proceso de la extracción de rasgos. Luego de concluido este proceso se

construyeron dos conjuntos de imágenes para el trabajo con las redes neuronales: el de

4,6

31

4,6

31

95

,36

9

95

,36

9

24

,75

0

24

,75

0

25

,25

0

25

,25

0

71

,71

8

71

,71

8

28

,28

2

28

,28

2

0,000

10,000

20,000

30,000

40,000

50,000

60,000

70,000

80,000

90,000

100,000

1 2 3 4

MEDIA ARITMÉTICA DE LOS ERRORES DE CLASIFICACIÓN EN LA DETECCIÓN DE CAÑA

MultiLayer PerceptronFeedforward

Perceptron simple

Self Organized Map

61

entrenamiento y el de evaluación. En cada uno de estos conjuntos se confeccionaron dos

sub-conjuntos, el primero asociado a imágenes caña verde y el segundo a imágenes de caña

madura.

2. Extracción de rasgos: Para cada una de las imágenes del conjunto de entrenamiento

se realizó un proceso de extracción de rasgos, obteniendo una matriz donde cada fila

contiene los 19 rasgos asociados a cada imagen. De igual modo se construyó un arreglo de

etiquetas para el entrenamiento de las redes neuronales de aprendizaje supervisado,

obteniéndose un vector donde cada posición representa la clase asociada con la imagen

correspondiente. Este proceso se realzó también a cada una de las imágenes del conjunto de

evaluación.

3. Clasificación: Se construyeron tres redes neuronales que responden a las tres

topologías propuestas para su comparación:

De la arquitectura perceptrón simple se creó una red de tipo perceptron.

De la topología perceptrón multicapa se creó una red de tipo feedforward.

De los mapas auto organizado se creó una red de tipo selforgmap.

Posterior a la creación de cada una estas redes se llevó a cabo el proceso de

entrenamiento, ejecutado 1000 veces con los rasgos y las etiquetas obtenidas del conjunto

de entrenamiento y evaluado luego de cada entrenamiento con los datos del conjunto de

evaluación, almacenando los resultados en cada una de sus ejecuciones (Ver anexo 1). Cada

una de estas redes realiza una auto evaluación de su aprendizaje con una porción de los

datos de entrenamiento. Luego del proceso de entrenamiento se obtienen redes neuronales

entrenadas capaces de clasificar una imagen y determinar si la imagen es caña verde o caña

madura.

4. Post-procesamiento estadístico: En la clasificación, para cada ejecución se obtuvo la

confusión de la red neuronal en la clasificación efectuada, así como el porcentaje de fallos y

aciertos de la red, es decir, porcentajes de falsos negativos, falsos positivos, verdaderos

negativos y verdaderos positivos. A estos resultados se les comprobó si su distribución era

62

normal para aplicarle pruebas paramétricas. Con el software IBM SPSS se comprobó que

los datos no seguían una distribución normal al aplicarle una prueba de Kolmogórov-

Smirnov(Ver Anexo 5). Por tanto, se les aplicó una prueba no paramétrica para determinar

si existían diferencias significativas entre las medias de cada grupo. En este caso se aplicó

una prueba para varias muestras independientes, específicamente la prueba H de Kruskall-

Wallis (Ver Anexo 6). Esta arrojó el resultado de que al menos una de las medias tenía una

diferencia significativa del resto. Luego, se comprobaron dos a dos cada uno de los grupos

de datos con la prueba U de Mann-Whitney y se determinó que existían diferencias

significativas entre todas las medias de los grupos de datos. En ese caso, se puede emplear

un estimador puntual para determinar el rendimiento de cada una de las redes. Para eso, se

calculó la media de cada uno de los grupos de datos y se representaron en un gráfico

detallado a continuación.

Donde uno (1) representa el porcentaje de falsos negativos, dos (2) representa el

porcentaje de falsos positivos, tres (3) representa el porcentaje de verdaderos negativos y

cuatro (4) el porcentaje de verdaderos positivos.

Gráfico 2. Media aritmética del porcentaje de error de clasificación de la caña

0,4

02

0,4

02

99

,59

8

99

,59

8

32

,14

3

32

,14

3

17

,85

7

17

,85

7

6,6

21

6,6

21

93

,37

9

93

,37

9

1 2 3 4

MEDIA ARITMÉTICA DEL PORCENTAJE DE ERROR DE CLASIFICACIÓN DE LA CAÑA

MultiLayer PerceptronFeedforward

Perceptron Simple

Self Organized Map

63

El promedio del procentaje de falsos negativos y falsos positivos de las redes multicapa,

aunque es un poco menor que el porcentaje de errores de los mapas auto-organizados, la

diferencia de las medias entre ellas es significativa. Lo mismo ocurre en el caso de los

porcentajes de acierto de las redes, aunque existe poca diferencia entre sus promedios, las

medias de los porcentajes de acierto difieren de forma significativa. Las redes de tipo

perceptrón simple presentan un comportamiento bastante malo en el proceso de

clasificación de la caña de azúcar. Por tanto, se arriba a la consecuencia de que, para la

clasificación de la caña, aunque la topología de los mapas auto-organizados proporciona

buenos resultados, la mejor arquitectura de redes neuronales para este proceso es la de

perceptrón multicapa.

Conclusiones del capítulo: Aunque los mapas auto-organizados presentaron un rendimiento bastante bueno en la

clasificación de los diversos estadios de la caña, no presentan un rendimiento adecuado en

el proceso de detección de la caña. Las redes perceptrón simple presentan un rendimiento

mediocre en ambos procesos, mientras que las redes de tipo perceptrón multicapa

presentaron los mejores resultados en ambos procesos de clasificación, arribándose a la

conclusión de que, en la clasificación de imágenes aéreas en la agricultura de precisión, las

mejores redes aplicables son las redes que respondan a la arquitectura de perceptrón

multicapa.

64

CONCLUSIONES

1. Para el proceso de detección de caña el rasgo que mejor resultados individuales

proporciona es la textura, y para la clasificación de los estadios de caña, el rasgo individual

que mejores resultados arroja es el color. El subconjunto que mejores resultados

proporciona es color-textura.

2. El enfoque basado en redes neuronales es pertinente en la clasificación de imágenes

aéreas, puesto que sus estructuras y algoritmos de aprendizaje las hace idóneas para el

reconocimiento de patrones relacionados con las características de las imágenes aéreas para

la agricultura de precisión.

3. La mejor arquitectura de redes neuronales para la clasificación de imágenes aéreas en

la agricultura de precisión es la arquitectura perceptrón multicapa. El en caso de la

detección de caña las redes de tipo perceptrón multicapa presenta un desempeño de

67,087% superior a la mejor de las otras dos arquitecturas. En el caso de la clasificación de

los estadios de caña, su rendimiento fue de 6,219% superior que la mejor de las otras dos

configuraciones.

65

RECOMENDACIONES

Implementar un software capaz de realizar las clasificaciones de imágenes aéreas en la


Extender la clasificación de imágenes aéreas en la agricultura de precisión a otros

aspectos relacionados con los cultivos, como la sanidad, la humedad de los suelos, etc.

Continuar con la investigación propuesta, evaluando y sometiendo a análisis de

resultados otras redes neuronales en la clasificación de imágenes aéreas en la


Realizar una investigación sobre la clasificación de otros tipos de imágenes aéreas

empleando redes neuronales, extendiendo su empleo más allá de la agricultura de

precisión.

66

BIBLIOGRAFÍA

Amarillo, G., Amarillo, M. and Sarmiento, F. (2015) ‘Drones aplicados a la agricultura

de precisión’, pp. 23–38.

Arista, A. et al. (2017) ‘Clasificación de imágenes urbanas aéreas: Comparación entre

descriptores de bajo nivel y aprendizaje profundo’, Informacion Tecnologica, 28(3), pp.

209–224. doi: 10.4067/S0718-07642017000300021.

Baluja, W. (2009) ‘Clasificación automatizada de imágenes para un sistema de filtrado

por contenidos basada en el empleo de redes neuronales’, (February).

Berrío, V., Mosquera, J. and Alzate, D. (2015) ‘Uso De Drones Para El Analisis De

Imágenes Multiespectrales En Agricultura De Precisión’, @limentech, Ciencia y

Tecnología Alimentaria, 13(1), pp. 28–40. doi: 10.24054/16927125.v1.n1.2015.1647.

Blaschke, T., Burnett, C. and Pekkarinen, A. (2004) ‘Image segmentation methods for

object-based analysis and classification’, Remote Sensing Image Analysis, pp. 211–236.

Bustos, O. H. et al. (2004) ‘Técnicas Estadísticas en Teledetección Espacial’.

Chica, M. and Abarca, F. (2000) ‘Computing geostatistical image texture for remotely

sensed data classification’.

García-Cervigón, J. J. (2015) ‘Estudio de Índices de vegetación a partir de imágenes

aéreas tomadas desde UAS / RPAS y aplicaciones de estos a la agricultura de precisión .’,

p. 78.

García, E. and Flego, F. (2009) ‘Agricultura de Precisión’, Tecnología Agropecuaria.

doi: 10.1002/j.2162-6057.1995.tb01399.x.

García, P. (2013) Reconocimiento de imágenes utilizando redes neuronales artificiales.

Universidad Complutense de Madrid.

Goering, R. (2004) ‘Matlab edges closer to electronic design automation world’, EE

67

Times.

Gong, P. and Xu, B. (2004) ‘Contextual image analysis methods for urban applications’,

RSIA, pp. 137–152.

Greenwood, F. et al. (2016) ‘Drones para la agricultura’.

Haralick, R. M., Shanmugan, K. and Dinstein, I. (1973) ‘Texture features for image

classification’, IEEE Trans. Syst. Man Cybern, 3(1), pp. 610–621.

Hay, G. J. and Castilla, G. (2006) ‘Object-based Image Analysis: Strengths, weakness,

opportunities and threaths’.

Hernández, C. and Mejías, M. (2016) ‘Clasificación de Patrones mediante el uso de una

Red Neuronal Pulsante’, 116, pp. 81–91.

Hernández, G. (2014) Aplicación de redes neuronales para la identificación de objetos

en tiempo real en imágenes tomadas por un quadrotor. Instituto Politécnico Nacional.

Holmes, G., Donkin, A. and Witten, I. H. (1994) ‘Weka: A machine learning

workbench’, in Proc Second Australia and New Zealand Conference on Intelligent

Information Systems. Brisbane, Australia.

Huang, X. and Jensen, J. R. (1997) ‘A machine learning approach to automated

knowledge-base building ffor remote sensing image analysis with GIS data’,

Photogrammetric Engineering and Remote Sensing, 63, pp. 1185–1194.

Jensen, J. R. (2005) ‘Introductory digital image processing’, Upper Saddle River:

Pearson Education, Inc.

Kohonen, T. (1982) ‘Self Organized Formation of Topologically Correct Feature Maps’,

Biologics Cybernetics, 43, pp. 56–59.

Lanzarini, L. and De Giusti, A. (2002) ‘Redes Neuronales aplicadas al Reconocimiento

de Patrones’, Workshop de Investigadores en Ciencias de la Computación, (1900), pp. 456–

459. Available at: http://lidi.info.unlp.edu.ar.

68

Lizarazo, I., Mesa, S. and Cuitiva, R. (2005) ‘Redes Neuronales : Bases Matemáticas’,

pp. 589–619.

Mathworks (2017) Matlab(R) Image Processing Toolbox Documentation.

Mihaich, F. (2014) ‘Aplicación de redes neuronales en la clasificación de imágenes’, pp.

1–156.

Peña, J. M. et al. (2014) ‘Detección de malas hierbas en girasol en fase temprana

mediante imágenes tomadas con un vehículo aéreo no tripulado (UAV)’, Revista de

Teledeteccion, (42), pp. 39–47. doi: 10.4995/raet.2014.3148.

Perez, C. and Muñoz, A. L. (2006) Teledetección: Nociones y aplicaciones.

Pinto, A. (2006) ‘Segmentación de imágenes por textura’.

Recio, J. A. (2010) ‘Técnicas de extracción de características y clasificación de

imágenes orientada a objetos aplicadas a la actualización de bases de datos de ocupación

del suelo’, p. 310. doi: 10.4995/Thesis/10251/6848.

Romero, L. and Calonge, T. (2004) ‘Redes Neuronales y Reconocimiento de Patrones.’,

Airene, pp. 1–11.

Ruiz, L. A., Fernández, A. and Recio, J. A. (2004) ‘Texture feature extraction for

classificationof remote sensing data using wavelet decomposition: A comparative study’.

Sluiter, R. et al. (2004) ‘A contextual approach to classify Mediterranean heterogeneus

vegetation using the spatial reclassification kernel (SPARK) and DAIS7915’, RSIA.

Smith, G. M. and Fuller, R. M. (2004) ‘An integrated approach to land cover

classification: an example in the Island of Jersey’, IJRS, 22(16), pp. 123–142.

Treworder, H. (1999) ‘Aerial Photographs and archaeology’, Flying Through

Cornwall´s Past, pp. 1–19. Available at: http://www.historic-

cornwall.org.uk/flyingpast/images/PDF_downloads/Aerial Survey.pdf.

Vargas, E. (2008) ‘Técnicas de procesamiento digital de imágenes e inteligencia

69

artificial para diagnosticar y controlar la incidencia de la Sigatoka Negra en plantaciones de

banano’.

Vega, H. (2011) ‘Redes neuronales para el reconocimiento de la calidad morfológica de

mangos exportables para la empresa Biofruit del Perú S.A.C’.

Vera, H. et al. (2009) ‘Reconocimiento de patrones mediante redes neuronales’.

Weldon, T. P. and Higgins, W. E. (1998) ‘An algorithm for designing multiple Gabor

filters for segmenting multi-textured images’, in IEEE Internacional Conference on Image

Processing, pp. 333–337.

Zarger, R. K. et al. (2008) ‘El origen de la agricultura, la domesticación de plantas y el

establecimiento de corredores biológico-culturales en Mesoamerica’, Revista de Geografía

Agrícola, 41(85), pp. 1–30. doi: 10.1093/acprof.

70

ANEXOS

Anexo 1: Tabla 1. Resultados de las simulaciones de las redes neuronales

Detección de caña

Clasificación de los estadios de caña

Media aritmética

Desviación estándar

Media aritmética Desviación estándar

Confusión Perceptrón simple

0,495 0,000 0,643 0,000

Perceptrón multicapa

0,047 0,011 0,004 0,022

Mapas autoorganizados

0,701 0,002 0,062 0,016

Porcentaje de falsos negativos

Perceptrón simple

24,750 0,000 32,143 0,000


4,631 1,074 0,402 2,156


71,718 0,129 6,621 1,970

Porcentaje de falsos positivos

Perceptrón simple

24,750 0,000 32,143 0,000


4,631 1,074 0,402 2,156


71,718 0,129 6,621 1,970

Porcentaje de verdaderos negativos

Perceptrón simple

25,250 0,000 17,857 0,000


95,369 1,074 99,598 2,156


28,282 0,129 93,379 1,970

Porcentaje de verdaderos positivos

Perceptrón simple

25,250 0,000 17,857 0,000


95,369 1,074 99,598 2,156

Mapas autoorganiza

28,282 0,129 93,379 1,970

71

dos

Anexo 2:

Tabla 2 Resultados de la prueba U de Mann-Wittney para el perceptrón multicapa y el perceptrón simple

Estadísticos de contrastea

confusión Fn fp vn Vp

U de Mann-Whitney ,000 ,000 ,000 ,000 ,000

W de Wilcoxon 500500,000 500500,000 500500,000 500500,000 500500,000

Z -41,453 -41,399 -41,399 -41,399 -41,399

Sig. asintót.

(bilateral)

,000 ,000 ,000 ,000 ,000

a. Variable de agrupación: grupo

Tabla 3 Resultados de la prueba U de Mann-Wittney para el perceptrón multicapa y el mapa auto organizado



U de Mann-Whitney ,000 ,000 ,000 ,000 ,000

W de Wilcoxon 500500,000 500500,000 500500,000 500500,000 500500,000

Z -40,654 -40,524 -40,524 -40,524 -40,524

Sig. asintót.

(bilateral)

,000 ,000 ,000 ,000 ,000


Tabla 4 Resultados de la prueba U de Mann-Wittney para el perceptrón simple con el mapa auto organizado



U de Mann-Whitney ,000 ,000 ,000 ,000 ,000

W de Wilcoxon 500500,000 500500,000 500500,000 500500,000 500500,000

72

Z -43,712 -43,613 -43,613 -43,613 -43,613

Sig. asintót.

(bilateral)

,000 ,000 ,000 ,000 ,000


Anexo 5: Tabla 5 Prueba de Kolmogorov-Smirnov para el conjunto de datos

Prueba de Kolmogorov-Smirnov para una muestra

confusión fn fp vn vp

N 3000 3000 3000 3000 3000

Parámetros normalesa,b Media ,2362 13,0553 13,0553 70,2780 70,2780

Desviación típica ,28902 13,83904 13,83904 37,19844 37,19844

Diferencias más

extremas

Absoluta ,377 ,308 ,308 ,381 ,381

Positiva ,377 ,308 ,308 ,254 ,254

Negativa -,254 -,249 -,249 -,381 -,381

Z de Kolmogorov-Smirnov 20,649 16,844 16,844 20,889 20,889


a. La distribución de contraste es la Normal.

b. Se han calculado a partir de los datos.

Anexo 6: Tabla 6. Prueba U de Mann-Whitney entre el perceptrón multicapa y el perceptrón simple



U de Mann-Whitney 23400,500 27609,000 27609,000 27609,000 27609,000

W de Wilcoxon 523900,500 528109,000 528109,000 528109,000 528109,000

Z -40,323 -39,878 -39,878 -39,878 -39,878

Sig. asintót.

(bilateral)

,000 ,000 ,000 ,000 ,000


73

Tabla 7. Prueba U de Mann-Whitney para el perceptrón multicapa y el mapa auto organizado



U de Mann-Whitney ,000 ,000 ,000 ,000 ,000

W de Wilcoxon 500500,000 500500,000 500500,000 500500,000 500500,000

Z -44,237 -44,237 -44,237 -44,237 -44,237

Sig. asintót.

(bilateral)

,000 ,000 ,000 ,000 ,000


Tabla 8. Prueba de Kruskal-Wallis para el perceptrón simple y el mapa auto organizado



U de Mann-Whitney 23400,500 27609,000 27609,000 27609,000 27609,000

W de Wilcoxon 523900,500 528109,000 528109,000 528109,000 528109,000

Z -40,323 -39,878 -39,878 -39,878 -39,878



Clasificación de imágenes aéreas en la agricultura de ...

Documents

Transcript of Clasificación de imágenes aéreas en la agricultura de ...