Metodo ADALINE Guisse Guerrero Ok

10
PONTIFICIA UNIVERSIDAD CATOLICA DEL ECUADOR SEDE IBARRA ESCUELA DE INGENIERIA CARRERA DE SISTEMAS Nombre: Guissela Guerrero Nivel: Séptimo Fecha: 2014-05-23 INTELIGENCIA ARTIFICIAL II METODO ADALINE CONCEPTO Al mismo tiempo que Frank Rosenblatt trabajaba en el modelo del Perceptrón, Bernard Widrow y su estudiante Marcian Hoff introdujeron el modelo de la red Adaline y su regla de aprendizaje llamada algoritmo LMS (Least Mean Square). Su nombre proviene de las siguientes siglas (ADaptative LINear Element). Se dice que la red Adaline es una generalización de la red Perceptrón, excepto en su función de transferencia, la cual es una función de tipo lineal en lugar de un limitador fuerte cono en el caso del Perceptrón. Generalmente se compone de una sola capa de n neuronas (por tanto n valores de salida) con m entradas con las siguientes características: Las m entradas representan un vector de entrada que pertenece al espacio . Por cada neurona, existe un vector de pesos sinápticos que indican la fuerza de conexión entre los valores de entrada y la neurona. En la práctica representan la ponderación de cada entrada sobre la neurona. Una constante . La salida de la neurona se representa por la función de activación, que se define como

Transcript of Metodo ADALINE Guisse Guerrero Ok

Page 1: Metodo ADALINE Guisse Guerrero Ok

PONTIFICIA UNIVERSIDAD CATOLICA DEL ECUADOR

SEDE IBARRA

ESCUELA DE INGENIERIA

CARRERA DE SISTEMAS

Nombre: Guissela Guerrero

Nivel: Séptimo

Fecha: 2014-05-23

INTELIGENCIA ARTIFICIAL II

METODO ADALINE

CONCEPTO

Al mismo tiempo que Frank Rosenblatt trabajaba en el modelo del Perceptrón, Bernard Widrow y

su estudiante Marcian Hoff introdujeron el modelo de la red Adaline y su regla de aprendizaje

llamada algoritmo LMS (Least Mean Square).

Su nombre proviene de las siguientes siglas (ADaptative LINear Element). Se dice que la red Adaline

es una generalización de la red Perceptrón, excepto en su función de transferencia, la cual es una

función de tipo lineal en lugar de un limitador fuerte cono en el caso del Perceptrón.

Generalmente se compone de una sola capa de n neuronas (por tanto n valores de salida) con m entradas con las siguientes características:

Las m entradas representan un vector de entrada que pertenece al espacio .

Por cada neurona, existe un vector de pesos sinápticos que indican la fuerza de conexión

entre los valores de entrada y la neurona. En la práctica representan la ponderación de cada

entrada sobre la neurona.

Una constante .

La salida de la neurona se representa por la función de activación, que se

define como

Page 2: Metodo ADALINE Guisse Guerrero Ok

DESARROLLO Y FUNCIONAMIENTO DEL METODO

Utiliza neuronas con función de transferencia escalón, y está limitada a una única neurona de salida.

Utiliza la denominada regla Delta de Widrow-Hoff o regla del mínimo error cuadrado medio (LMS),

basada en la búsqueda del mínimo de una expresión del error entre la salida deseada y la salida

lineal obtenida antes de aplicarle la función de activación escalón. Estas redes pueden procesar

información analógica, tanto de entrada como de salida, utilizando una función de activación lineal

o sigmoidal.

El elemento de procesamiento realiza la suma de los productos de los vectores de entrada y de

pesos, y aplica una función de salida para obtener un único valor de salida, el cual debido a su

función de transferencia lineal será +1 si la sumatoria es positiva o –1 si la salida de la sumatoria es

negativa. En términos generales la salida de la red está dada por

En este caso, la salida es la función unidad al igual que la función de activación; el uso de la función

identidad como función de salida y como función de activación significa que la salida es igual a la

activación, que es la misma entrada neta al elemento.

El Adaline es ADaptivo en el sentido de que existe un procedimiento bien definido para modificar

los pesos con objeto de hacer posible que el dispositivo proporcione el valor de salida correcto para

la entrada dada. El Adaline es Lineal porque la salida es una función lineal sencilla de los valores de

la entrada. También se podría decir que el Adaline es un Elemento Lineal, evitando por completo la

definición como Neurona.

FORMA DE APRENDIZAJE

Al igual que el Perceptrón, la red Adaline es una red de aprendizaje supervisado que necesita

conocer de antemano los valores asociados a cada entrada. Los pares de entrada/salida tienen la

siguiente forma:

(2.2.4)

Donde es la entrada a la red y es su correspondiente salida deseada, cuando una entrada p es

presentada a la red, la salida de la red es comparada con el valor de t que le es asociado.

El algoritmo LMS se deriva de la regla Widrow-Hoff Delta, la que en términos generales para un

proceso de actualización de los pesos de una red Adaline, se deduce de la siguiente manera, de

acuerdo al procedimiento descrito en Widrow[]

Page 3: Metodo ADALINE Guisse Guerrero Ok

(2.2.5)

En el cual k representa la iteración actual del proceso de actualización, es el siguiente

valor que tomará el vector de pesos y es el valor actual del vector de pesos. El error

actual e(k) es definido como la diferencia entre la respuesta deseada y la salida de la

red antes de la actualización:

(2.2.6)

La variación del error en cada iteración es representada por

(2.2.7)

En concordancia con la ecuación (2.2.5) la actualización de los pesos, teniendo en cuenta el error

es:

(2.2.8)

Combinando las ecuaciones (2.2.8) y (2.2.7), se obtiene:

(2.2.9)

De esta forma, el error es reducido por un factor mientras los pesos van cambiando a medida que

se presenta un valor de entrada. Cada vez que se presenta un nuevo patrón el ciclo de actualización

inicia nuevamente; el siguiente error es reducido por un factor , y el proceso continua. Los valores

iniciales del vector de pesos son usualmente escogidos como cero y se actualizan hasta que el

algoritmo alcance convergencia.

La elección de controla la estabilidad y velocidad de la convergencia del proceso de entrenamiento

como puede verse en la ecuación (2.2.9); si se escoge un valor muy pequeño de ,el algoritmo

pierde velocidad y tarda mucho en alcanzar convergencia, si por el contrario se toma un valor muy

grande, el algoritmo pierde estabilidad y se torna oscilante alrededor del valor de convergencia.

Para patrones de entrada independientes en el tiempo, la estabilidad es garantizada para valores

de que varíen entre

(2.2.10)

Si se fija en un valor mayor a 1 el error es innecesariamente sobre-corregido, por lo tanto un rango

de valores prácticos para la rata de aprendizaje es:

Page 4: Metodo ADALINE Guisse Guerrero Ok

(2.2.11)

Este algoritmo es auto-normalizado en el sentido que la elección de no depende de la magnitud

de las señales de entrada; cada peso actualizado es colineal con los parámetros de entrada y su

magnitud es inversamente proporcional a . Si se emplea como entradas binarias 1 y 0, la

actualización no ocurre para pesos cuya entrada sea cero, mientras con entradas binarias todos

los pesos son actualizados en cada iteración y la convergencia es más rápida. Por esta razón, las

entradas simétricas +1 y –1 son generalmente preferidas.

Una descripción geométrica del proceso de actualización de pesos en la regla Widrow-Hoff delta o

algoritmo LMS, se describe en la figura 2.2.4

Figura 2.2.4 Actualización de pesos del algoritmo LMS

De acuerdo a la ecuación (2.2.8), equivale la suma de y ,

además es paralelo con el vector de entrada . De la ecuación (2.2.7), el cambio en el

error es igual al producto negativo de y , como el algoritmo LMS selecciona

a de tal forma que sea colineal con , el cambio en el error deseado se calcula con la

menor magnitud de posible, empleando el principio de mínima perturbación [].

Extendiendo el algoritmo a la actualización de las ganancias, se tiene:

(2.2.12)

El algoritmo LMS corrige el error y si todos los patrones de entrada son de igual longitud, la

actualización de pesos y ganancias tiende a minimizar el error medio cuadrático, esta es la principal

propiedad de este algoritmo.

En el algoritmo LMS, los valores de los incrementos y se calculan con base en las

derivadas parciales de la función del error medio cuadrático con respecto a pesos y ganancias

respectivamente.

Para explicar el cálculo del error medio cuadrático se considerará una red Adaline y se empleará un

algoritmo de pasos descendientes aproximado, como el que utilizaron Widrow y Hoff; con este

Page 5: Metodo ADALINE Guisse Guerrero Ok

algoritmo calculando el gradiente en cada iteración (gradiente instantáneo) y no el gradiente

verdadero, la función para el error medio cuadrático es:

(2.2.13)

En la ecuación 2.2.13 representa la salida esperada en la iteración k y representa la salida

de la red; el error cuadrático esperado ha sido reemplazado por el error cuadrático en la

iteración k, por lo tanto en cada iteración se tiene un gradiente del error de la siguiente forma:

(2.2.14)

y

(2.2.15)

Los primeros R elementos del error son derivadas parciales con respecto a los pesos de la red,

mientras que los elementos restantes son derivadas parciales con respecto a las ganancias

Se evaluará primero la derivada parcial de con respecto a :

(2.2.16)

Donde es el i-ésimo elemento del vector de entrada en la k-ésima iteración, esto puede

simplificarse así:

(2.2.17)

De manera similar se obtiene el elemento final del gradiente, correspondiente a la derivada parcial

del error con respecto a la ganancia:

(2.2.18)

Page 6: Metodo ADALINE Guisse Guerrero Ok

En esta ecuación pueden verse las ventajas de la simplificación del error medio cuadrático al poder

ser calculado por medio del error en la iteración k, y así para calcular el error se necesita solo

multiplicar el error por el número de entradas.

La aproximación de encontrada en la ecuación (2.2.14) es reemplazada en la ecuación (2.2.5)

que define el proceso de actualización de pesos para el algoritmo LMS; después de haber evaluado

las derivadas parciales el proceso de actualización puede expresarse como sigue:

(2.2.19)

(2.2.20)

Ahora t(k) y W(k) son términos independientes. Las ecuaciones (2.2.19) y (2.2.20) conforman la regla

de actualización de parámetros empleada por una red Adaline, la rata de aprendizaje se tomó

constante durante el proceso de deducción del algoritmo.

En forma matricial el algoritmo de actualización para pesos y ganancias para la red Adaline, se

expresa como:

(2.2.21)

(2.2.22)

Nótese que ahora el error e y la ganancia b son vectores.

FUNCIONES

Función de transferencia lineal (purelin): la salida de una función de transferencia lineal es igual a

su entrada, a=n

En la gráfica del lado derecho puede verse la característica de la salida a de la red, comparada con

la entrada p, más un valor de ganancia b, neuronas que emplean esta función de transferencia son

utilizadas en la red tipo Adaline.

Page 7: Metodo ADALINE Guisse Guerrero Ok

EJEMPLO PRÁCTICO

Ejemplo de aplicación a una compuerta lógica OR

1. inicialmente la neurona toma los siguientes pesos

Y tomando una función de activación en escalón de un solo polo {0 1}

a. iniciamos calculando el valor ponderado de la suma de las entradas por los

pesos en la iteración 1 (k=1)

b. Luego se compara el valor con la función de activación

c. Calculando el error

Tenemos que = -

d. Los nuevos pesos quedan

1. a. Se inicia una nueva iteración (k=2), hallamos de nuevo S

b. La comparación con la función de activación

Page 8: Metodo ADALINE Guisse Guerrero Ok

c. El error es

Tenemos que = 0

d. El nuevo cálculo de los pesos no se ve alterado por e = 0

3. a. Se inicia una nueva iteración (k = 3)

b. La comparación con la función de activación

c. El error es

Tenemos que = 0

d. El nuevo cálculo de los pesos no se ve alterado por e = 0

Page 9: Metodo ADALINE Guisse Guerrero Ok

4. a. Iteración con k = 4

b. La comparación con la función de activación

c. El error es

tenemos que = 0

d. El nuevo cálculo de los pesos no se ve alterado por e = 0

Después de llegar hasta la novena iteración (k=0) y ver que el e=0 decimos que la neurona

aprendió después de haber pasado un ciclo osea dwi/dt = 0

Page 10: Metodo ADALINE Guisse Guerrero Ok

VENTAJAS Y DESVENTAJAS

VENTAJAS

DESVENTAJAS

La salida de datos es real.

En el aprendizaje existe una medida de cuánto se ha equivocado la red.

Existe un valor que indica la proporción que va afectar el gradiente.

A diferencia de Perceptrón su gráfica de error es un hiperparaboloide que posee o bien un único mínimo global, o bien una recta de infinitos mínimos, todos ellos globales, evita la gran cantidad de problemas que da el Perceptrón a la hora del entrenamiento debido a que su función de error (también llamada de coste) posee numerosos mínimos locales.

Resuelve solo problemas de tipo lineal.

Aprendizaje Supervisado.

No puede realizar ejercicios de clasificación de más de dos opciones.

BIBLIOGRAFIA Y LINKOGRAFIA

http://www.secyt.frba.utn.edu.ar/gia/RNA.pdf

http://medicinaycomplejidad.org/pdf/redes/Adaline.pdf

http://ingenieria.udea.edu.co/investigacion/mecatronica/mectronics/redes.htm

http://proton.ucting.udg.mx/posgrado/cursos/idc/neuronales2/AntecedentesAd.htm