Presentacion Redes Neuronales

Facultat dInforma`ticaEnginyeria Informa`tica

2005-2006

Redes Neuronales

1. IntroduccionFrancisco Casacuberta Nolla

[email protected]

24 de octubre de 2005

Redes Neuronales. 2005-2006 Introduccion: 1

Index

1 Modelos conexionistas . 2

2 La neurona . 6

3 Los neurocomputadores . 10

4 Aplicaciones de los modelos conexionistas . 12

5 Marco estadstico para los modelos conexionistas . 18

6 Del perceptron al perceptron multicapa . 24

24 de octubre de 2005 Facultat dInformatica - UPV


Index


2 La neurona . 6







Modelos conexionistas

Un conjunto de procesadores elementales densamente inteconectados

Los modelos conexionistas proporcionan mecanismos generales para construirmodelos de sistemas a partir de datos de los mismos

Otros nombres:

Modelos conexionistas

Redes neuronales artificiales

Procesadores distribuidos y paralelos



Breve historia de los modelos conexionistas

ANTECEDENTES: Papiro de Edward Smith (3.000 A.C.) Estudio de la actividad cerebral de W. James (1890).LOS PRIMEROS MODELOS: Modelo simple de neurona: McCulloch y Pitt (1943).

sj(t) = I(Xi

jisi(t 1) > j) 0 < ji < 1

Regla de aprendizaje: Hebb (1949):

ji := ji + si sj

Simulacion software: Rochester -IBM- (1950).LOS PRIMEROS GRANDES RESULTADOS: Dermoth Summer Research Project on AI (1956). El PERCEPTR ON: Rosenblat (1959). El ADALINE: Widrow y Hoff (1959).



Breve historia de los modelos conexionistas

FORMALIZACION: Resultados pesimistas: Minsky y Papert (1969)EL OLVIDO HASTA 1980: Falta de fondos pero algunos continuan: Anderson, Fukushima, Kohonen, Gross-

berg, Rumelhart, Amari, Hopfield, etc.

RESURGIMIENTO EN LOS 80: Nuevos algoritmos, arquitecturas y experimentos demostrativos: Hopfield (1982),

Rumelhart-Hinton-Williams (1986), Kohonen (1984). Nuevas tecnologas. Grandes proyectos: 5. Generacion, Informe Alvey.APOGEO 1986 A 1995: Multitud de libros, revistas y congresos, Inumerables aplicaciones.ASENTAMIENTO A PARTIR DE 1996: Resultados formales: Bishop (1996), Rippley (1996), Ney (1995), Lugosi (1998), etc.



Index


2 La neurona . 6







La neurona

Celula especializada fundamental del sistema nervioso.

Existen 1011 neuronas en el cerebro humano y 1015 conexiones.

Partes de una neurona tpica:Cuerpo celular (5 a 100 micras)

Axon (0,1 mm a 1 m)

Dendron: Dendritas.

Telodendron: Terminales axonicos.Sinapsis: zona de contacto entre terminales axonicos de una neurona y las dendritas

de otra neurona.



La neurona

Nucleo

Dendritas

Axon

Soma

Terminales axonicos

Dendrita

Axon

neurotransmisores



La neurona

Transmision de la informacion

Senales electricas en el axon (frecuencia modulada).

Senales qumicas en la sinapsis.

Funcionamiento

Cuando llega una senal a los terminales axonicos se liberan neurotransmisores.

Los neurotransmisores en las dendritas provocan una despolarizacion que se reali-menta y se transmite a las regiones vecinas.

Si la acumulacion de potencial supera un umbral se produce un disparo por el axon(sinapsis de excitacion). Hay sinapsis con efecto negativo (sinapsis de inhibicion).



Index


2 La neurona . 6







Las neurocomputadoras

Neurocomputador: conjunto de procesadores interconectados que operanconcurrentemente que implementan modelos conexionistas

APROXIMACIONES

Computadores secuenciales: Simuladores software.

Computadores paralelos: Simuladores.

Circuitos integrados especficos (Chips neuronales)



Index


2 La neurona . 6







Aplicaciones

CLASIFICACION

REGRESION

Simulacion

Control y automatizacion

Prediccion

Ayuda al diagnostico



Aplicaciones: clasificacion

Deteccion fraudes tarjetas credito (America Express, HNC Software, Nestor Inc. andFraud Detection Systems)Reconocimiento de caracteres impresos para fax (Cardiff Software)Reconocimiento de caracteres manuscritos (HNC Software, Electronic Data Publish-ing, Inc., Audre Recognition Systems, Caere Corporation, Synaptics, Lexicus)Deteccion de sucesos significativos en fotografas producidas por aceleradores departculas (CERN).Procesadores de formularios (Eastman Kodak)Entrada a un computador mediante lapiz (Fujitsu. Apple Computer, Synaptics)Verificacion de firmas en cheques (NeuroMetric Vision System Inc.)Minera de datos (Supermercados USA)Analisis de olores en alimentacion (AlphaMOS, AromaScan Inc. Coca-Cola, Blood-hound Sensors Ltd., Neotronics Scientific, Sharp Corporation -hornos-)Aplicaciones medicas: detecciones de celulas cancergenas, malformaciones, pre-vencion de problemas de la anestesia, modelado de la esquizofrenia, deteccion delos ataques de epilepsia, ayuda a la diagnosis de la esclerosis multiple, etc.



Aplicaciones: prediccion

Ayuda a la toma de deciciones de prestamos (Chase Manhattan Bank, Chase Finan-cial Technologies)Prevision de utilizacion de vuelos (BehavHeuristics Inc.)Prediccion de ventas de consumo de refrescos (Britvic)Venta por correo, propaganda y catalogos (Microsoft, NeuralWare, HNC SoftwareInc.)Prevision metereologica (National Weather Service)Prevision de stocks (Carl & Associates, Neural Applications Corporation, NeuroDi-mension Inc., Walkrich Investment Advisors)Prevision de precios (Daiwa Securities Co., Ltd. and NEC Corporation)Pensiones (John Deere & Company)Habitos de uso de tarjetas (MasterCard, Visa, Adaptive Decision Systems)Prevision de demanda electrica (Bayernwerk AG, Britvic, Electric Power ResearchInstitute, Pacific Gas & Electric, PUB Singapore, Vattenfall)



Aplicaciones: control y automatizacion

Control en la fabricacion de vehculos (Volvo en motores y pintura).Prediccion de fallos en motores electricos (Siemens).Control de fotocopiadoras (Ricoh).Refinado petrolfero (Texaco).Fabricacion de acero (Fujitsu prevencion de vertidos, Neural Applications Corpora-tion, Nippon Steel, Siemens en control del laminaje )Control de calidad (Florida Department of Citrus en ctricos, Frito-Lay en las patatasfritas, NLK - Celpap en la produccion de papel, Monsanto en la fabricacion de plastico,Netrologic, Inc. en soldaduras)Detecion de fallos (London Underground, Rolls Royce, AT&T/Lucent Technologies)Control fabricacion de altavoces (CTS Electronic)Control de produccion de chips (Intel)Sistemas de vision (Applied Intelligent Systems)Control (Fujitsu, Honeywell, Pavilion Technologies)



Algunas aplicacionesAplicaciones

http://electronica.com.mx/neural/aplicaciones/index.htmlTratamiento de la informacion financiera

http://www.ciberconta.unizar.es/Biblioteca/0004/SerGall96.htmlMinera de datos

http://www.cazv.cz/2003/AE9_03/6-Vesely.pdfAproximacion de funcioneshttp://neuron.eng.wayne.edu/bpFunctionApprox/bpFunctionApprox.htmlDiagnostico en medicina

http://www.generation5.org/content/2004/MedicalDiagnosis.aspAnemias

http://www.generation5.org/content/2004/NNinAnaemia.aspAplicaciones en Fsica de Altas Energas

http://neuralnets.web.cern.ch/NeuralNets/nnwInHep.htmlEjemplos varios

http://www.calsci.com/Applications.htmlDiversas implementaciones

http://www.neural-networks-at-your-fingertips.com/Demos en Java

http://diwww.epfl.ch/mantra/tutorial/english/



Index


2 La neurona . 6







Teora estadstica de la decision

Los objetos a clasificar pertenecen a una de las M posibles clases.Cada objeto esta representado por un vector de caractersticas perteneciente a IRdo a 1 ...d.La probabilidad de que dado un objeto ~x IRd sea de la clase y {1, . . . ,M} vienedado por Pr(Y = y | X = ~x)Un clasificador o regla de clasificacion : IRd {1, ...,M}.

PREPROCESO YEXTRACCIN DE

CARACTERSTICASADQUISICIN

106

CLASIFICADORVIRGINIA

VERSICOLOR

MODELOS

OBJETO

VECTORDE

CARACTERSTICASCLASEIMAGEN



Teora estadstica de la decision

Dado un objeto ~x de la clase y, el clasificador comete un error si (~x) = y 6= y, conun coste del error L(y, y).Riesgo total

R() =My=1

IRd

L(y, (~x)) Pr(~x, y) d~x

Regla de decision de Bayes: La regla de clasificacion que minimiza el riesgo totalbajo la funcion de coste 0-1 L es:

o = argmin

R() o(~x) = argmax1yM

Pr(y|~x)

Por el Teorema de Bayes Pr(y|~x) = Pr(~x|y) Pr(y)/Pr(~x):

o(~x) = argmax1yM

Pr(~x|y) Pr(y)



Frontera de decisionLa regla de decision define M regiones de decision:

Ry ={~x IRd y = argmax

1yMPr(y | ~x)

}

La frontera de decision entre dos clases y y y contiguas es:

FD(y, y) ={~x IRd Pr(y | ~x) = Pr(y | ~x)

}

R

3

FD(1,2)

FD(2,3)

FD(1,3)

R

3R

2

R

1



Diseno de un clasificador

En general, Pr(y|~x) es desconocida, por lo que se busca estimar

pr(y|~x) Pr(y|~x)

Una regla de clasificacion inspirada en la regla de decision de Bayes podra ser

(~x) = argmax1yM

pr(y|~x)

Por ejemplo

pr(y|~x) =pr(y) pr(~x | y)

pr(~x):

pr(~x|y) =exp[12(~x~y)T1(~x~y)]

(2pi)d/2||1/2

pr(1), . . . ,pr(M)

= (pr(1), . . . ,pr(M), ~1, . . . , ~M ,) con ~y IRd (1 y M) y IRdd.24 de octubre de 2005 Facultat dInformatica - UPV


Diseno de un clasificador

1. Estimacion de en pr(y|~x) a partir de una muestra de entrenamiento

A ={(~xi, yi) | ~xi IRd, 1 yi M para 1 i n

}2. Clasificacion de una muestra desconocida dada ~x IRd en (~x) {1, . . . ,M}

(~x) = argmax1yM

pr(y|~x)

3. Evaluacion del clasificador a partir de una muestra de test T 6= A

T ={(~xi, yi) | ~xi IRd, 1 yi M para 1 i m

}RT () =

1m

mi=1

L(yi, (~xi))



Index


2 La neurona . 6







El perceptron

x 1 x 2 x

d

w 1w

2w

d

w0

Entradas

Pesos

Umbral

1

g

. . .

. . .

El perceptron es una funcion lineal:

g(~x) =d

k=1

kxk + 0,

Y una regla de clasificacion (para dosclases)

P (~x) ={

1 si g(~x) > 02 si g(~x) < 0



El perceptron para M clases

x 1 x 2 x 3

g (x) 1 g (x) 2 g (x) 3 g (x) 4 g (x) 5 g (x) 6

1 2 3 4 5 6

EL PROBLEMA DE LAS M CLASES

~g : IRd IRM : gj(~x) =di=1

ijxi + 0j = ~j ~x

i para 1 j M

REGLA DE CLASIFICACIONP (~x) = argmax

jgj(~x)



El perceptron para M clases

APRENDIZAJE DE LOS PESOS: Dada una muestra de aprendizaje A ={(~x1,~t1), ..., (~xn,~tn)}, con ~xi IRd, ~ti IRM , encontrar el conjunto de M vectores~

j tales que tal que minimicen:

EA() = 12nni=1

Mj=1

(ti,j gj(~xi))2

EL ALGORITMO DE WIDROW-HOFF

Para 1 j M

~j(1) = arbitrario

~j(k + 1) = ~

j(k) k

(tj(k) ~ j(k) ~x

(k))~x(k)



El perceptron multicapa

x 1 x 2

1,1 1,2 1,3 1,4 1,5

x 3

1,6l = 1

l = 0

1s 4

0s 2

0s i

1w 6,3

1w i,j

2,1 2,2 2,3

2s 3

2w i,j

2s i

l = 2

2w 3,6

2s 2

2s 1

s2j = f(e2j)

e2j =

iw2j,is

1i

s1j = f(e

1j)

e1j =

iw1j,ixi

Funcion de activacion sigmoid

f(ekj ) =1

1+exp(ekj )







REGLA DE CLASIFICACION: PM(~x) = argmaxj

s2j(~x)

APRENDIZAJE DE LOS PESOS: Dada una de un perceptron multicapa y A ={(~x1,~t1), ..., (~xn,~tn)}, con ~xi IRN0, ~ti IRN2, encontrar un conjunto de pesos tal que minimice:

EA() = 12nni=1

N2j=1

(ti,j s2j(~xi)

)2 Correccion de los pesos de la capa de salida (1 i N2, 0 j N1)

2ij = n

p=1

2i (~xp) s1j(~xp)

2i (~xp) =

(tp,i s2i (~xp)

)f (e2i (~xp))

Correccion de los pesos de la capa oculta 1 i N1, 0 j N0

1ij = n

p=1

1i (~xp) xp,j 1i (~xp) =

(r

2r(~xp) 2ri

)f (e1i (~xp))


Presentacion Redes Neuronales

Documents

Transcript of Presentacion Redes Neuronales