Presentacion Redes Neuronales
-
Upload
adolfo-velasquez -
Category
Documents
-
view
212 -
download
0
description
Transcript of Presentacion Redes Neuronales
-
Facultat dInforma`ticaEnginyeria Informa`tica
2005-2006
Redes Neuronales
1. IntroduccionFrancisco Casacuberta Nolla
24 de octubre de 2005
Redes Neuronales. 2005-2006 Introduccion: 1
Index
1 Modelos conexionistas . 2
2 La neurona . 6
3 Los neurocomputadores . 10
4 Aplicaciones de los modelos conexionistas . 12
5 Marco estadstico para los modelos conexionistas . 18
6 Del perceptron al perceptron multicapa . 24
24 de octubre de 2005 Facultat dInformatica - UPV
Redes Neuronales. 2005-2006 Introduccion: 2
Index
1 Modelos conexionistas . 2
2 La neurona . 6
3 Los neurocomputadores . 10
4 Aplicaciones de los modelos conexionistas . 12
5 Marco estadstico para los modelos conexionistas . 18
6 Del perceptron al perceptron multicapa . 24
24 de octubre de 2005 Facultat dInformatica - UPV
Redes Neuronales. 2005-2006 Introduccion: 3
Modelos conexionistas
Un conjunto de procesadores elementales densamente inteconectados
Los modelos conexionistas proporcionan mecanismos generales para construirmodelos de sistemas a partir de datos de los mismos
Otros nombres:
Modelos conexionistas
Redes neuronales artificiales
Procesadores distribuidos y paralelos
24 de octubre de 2005 Facultat dInformatica - UPV
-
Redes Neuronales. 2005-2006 Introduccion: 4
Breve historia de los modelos conexionistas
ANTECEDENTES: Papiro de Edward Smith (3.000 A.C.) Estudio de la actividad cerebral de W. James (1890).LOS PRIMEROS MODELOS: Modelo simple de neurona: McCulloch y Pitt (1943).
sj(t) = I(Xi
jisi(t 1) > j) 0 < ji < 1
Regla de aprendizaje: Hebb (1949):
ji := ji + si sj
Simulacion software: Rochester -IBM- (1950).LOS PRIMEROS GRANDES RESULTADOS: Dermoth Summer Research Project on AI (1956). El PERCEPTR ON: Rosenblat (1959). El ADALINE: Widrow y Hoff (1959).
24 de octubre de 2005 Facultat dInformatica - UPV
Redes Neuronales. 2005-2006 Introduccion: 5
Breve historia de los modelos conexionistas
FORMALIZACION: Resultados pesimistas: Minsky y Papert (1969)EL OLVIDO HASTA 1980: Falta de fondos pero algunos continuan: Anderson, Fukushima, Kohonen, Gross-
berg, Rumelhart, Amari, Hopfield, etc.
RESURGIMIENTO EN LOS 80: Nuevos algoritmos, arquitecturas y experimentos demostrativos: Hopfield (1982),
Rumelhart-Hinton-Williams (1986), Kohonen (1984). Nuevas tecnologas. Grandes proyectos: 5. Generacion, Informe Alvey.APOGEO 1986 A 1995: Multitud de libros, revistas y congresos, Inumerables aplicaciones.ASENTAMIENTO A PARTIR DE 1996: Resultados formales: Bishop (1996), Rippley (1996), Ney (1995), Lugosi (1998), etc.
24 de octubre de 2005 Facultat dInformatica - UPV
Redes Neuronales. 2005-2006 Introduccion: 6
Index
1 Modelos conexionistas . 2
2 La neurona . 6
3 Los neurocomputadores . 10
4 Aplicaciones de los modelos conexionistas . 12
5 Marco estadstico para los modelos conexionistas . 18
6 Del perceptron al perceptron multicapa . 24
24 de octubre de 2005 Facultat dInformatica - UPV
Redes Neuronales. 2005-2006 Introduccion: 7
La neurona
Celula especializada fundamental del sistema nervioso.
Existen 1011 neuronas en el cerebro humano y 1015 conexiones.
Partes de una neurona tpica:Cuerpo celular (5 a 100 micras)
Axon (0,1 mm a 1 m)
Dendron: Dendritas.
Telodendron: Terminales axonicos.Sinapsis: zona de contacto entre terminales axonicos de una neurona y las dendritas
de otra neurona.
24 de octubre de 2005 Facultat dInformatica - UPV
-
Redes Neuronales. 2005-2006 Introduccion: 8
La neurona
Nucleo
Dendritas
Axon
Soma
Terminales axonicos
Dendrita
Axon
neurotransmisores
24 de octubre de 2005 Facultat dInformatica - UPV
Redes Neuronales. 2005-2006 Introduccion: 9
La neurona
Transmision de la informacion
Senales electricas en el axon (frecuencia modulada).
Senales qumicas en la sinapsis.
Funcionamiento
Cuando llega una senal a los terminales axonicos se liberan neurotransmisores.
Los neurotransmisores en las dendritas provocan una despolarizacion que se reali-menta y se transmite a las regiones vecinas.
Si la acumulacion de potencial supera un umbral se produce un disparo por el axon(sinapsis de excitacion). Hay sinapsis con efecto negativo (sinapsis de inhibicion).
24 de octubre de 2005 Facultat dInformatica - UPV
Redes Neuronales. 2005-2006 Introduccion: 10
Index
1 Modelos conexionistas . 2
2 La neurona . 6
3 Los neurocomputadores . 10
4 Aplicaciones de los modelos conexionistas . 12
5 Marco estadstico para los modelos conexionistas . 18
6 Del perceptron al perceptron multicapa . 24
24 de octubre de 2005 Facultat dInformatica - UPV
Redes Neuronales. 2005-2006 Introduccion: 11
Las neurocomputadoras
Neurocomputador: conjunto de procesadores interconectados que operanconcurrentemente que implementan modelos conexionistas
APROXIMACIONES
Computadores secuenciales: Simuladores software.
Computadores paralelos: Simuladores.
Circuitos integrados especficos (Chips neuronales)
24 de octubre de 2005 Facultat dInformatica - UPV
-
Redes Neuronales. 2005-2006 Introduccion: 12
Index
1 Modelos conexionistas . 2
2 La neurona . 6
3 Los neurocomputadores . 10
4 Aplicaciones de los modelos conexionistas . 12
5 Marco estadstico para los modelos conexionistas . 18
6 Del perceptron al perceptron multicapa . 24
24 de octubre de 2005 Facultat dInformatica - UPV
Redes Neuronales. 2005-2006 Introduccion: 13
Aplicaciones
CLASIFICACION
REGRESION
Simulacion
Control y automatizacion
Prediccion
Ayuda al diagnostico
24 de octubre de 2005 Facultat dInformatica - UPV
Redes Neuronales. 2005-2006 Introduccion: 14
Aplicaciones: clasificacion
Deteccion fraudes tarjetas credito (America Express, HNC Software, Nestor Inc. andFraud Detection Systems)Reconocimiento de caracteres impresos para fax (Cardiff Software)Reconocimiento de caracteres manuscritos (HNC Software, Electronic Data Publish-ing, Inc., Audre Recognition Systems, Caere Corporation, Synaptics, Lexicus)Deteccion de sucesos significativos en fotografas producidas por aceleradores departculas (CERN).Procesadores de formularios (Eastman Kodak)Entrada a un computador mediante lapiz (Fujitsu. Apple Computer, Synaptics)Verificacion de firmas en cheques (NeuroMetric Vision System Inc.)Minera de datos (Supermercados USA)Analisis de olores en alimentacion (AlphaMOS, AromaScan Inc. Coca-Cola, Blood-hound Sensors Ltd., Neotronics Scientific, Sharp Corporation -hornos-)Aplicaciones medicas: detecciones de celulas cancergenas, malformaciones, pre-vencion de problemas de la anestesia, modelado de la esquizofrenia, deteccion delos ataques de epilepsia, ayuda a la diagnosis de la esclerosis multiple, etc.
24 de octubre de 2005 Facultat dInformatica - UPV
Redes Neuronales. 2005-2006 Introduccion: 15
Aplicaciones: prediccion
Ayuda a la toma de deciciones de prestamos (Chase Manhattan Bank, Chase Finan-cial Technologies)Prevision de utilizacion de vuelos (BehavHeuristics Inc.)Prediccion de ventas de consumo de refrescos (Britvic)Venta por correo, propaganda y catalogos (Microsoft, NeuralWare, HNC SoftwareInc.)Prevision metereologica (National Weather Service)Prevision de stocks (Carl & Associates, Neural Applications Corporation, NeuroDi-mension Inc., Walkrich Investment Advisors)Prevision de precios (Daiwa Securities Co., Ltd. and NEC Corporation)Pensiones (John Deere & Company)Habitos de uso de tarjetas (MasterCard, Visa, Adaptive Decision Systems)Prevision de demanda electrica (Bayernwerk AG, Britvic, Electric Power ResearchInstitute, Pacific Gas & Electric, PUB Singapore, Vattenfall)
24 de octubre de 2005 Facultat dInformatica - UPV
-
Redes Neuronales. 2005-2006 Introduccion: 16
Aplicaciones: control y automatizacion
Control en la fabricacion de vehculos (Volvo en motores y pintura).Prediccion de fallos en motores electricos (Siemens).Control de fotocopiadoras (Ricoh).Refinado petrolfero (Texaco).Fabricacion de acero (Fujitsu prevencion de vertidos, Neural Applications Corpora-tion, Nippon Steel, Siemens en control del laminaje )Control de calidad (Florida Department of Citrus en ctricos, Frito-Lay en las patatasfritas, NLK - Celpap en la produccion de papel, Monsanto en la fabricacion de plastico,Netrologic, Inc. en soldaduras)Detecion de fallos (London Underground, Rolls Royce, AT&T/Lucent Technologies)Control fabricacion de altavoces (CTS Electronic)Control de produccion de chips (Intel)Sistemas de vision (Applied Intelligent Systems)Control (Fujitsu, Honeywell, Pavilion Technologies)
24 de octubre de 2005 Facultat dInformatica - UPV
Redes Neuronales. 2005-2006 Introduccion: 17
Algunas aplicacionesAplicaciones
http://electronica.com.mx/neural/aplicaciones/index.htmlTratamiento de la informacion financiera
http://www.ciberconta.unizar.es/Biblioteca/0004/SerGall96.htmlMinera de datos
http://www.cazv.cz/2003/AE9_03/6-Vesely.pdfAproximacion de funcioneshttp://neuron.eng.wayne.edu/bpFunctionApprox/bpFunctionApprox.htmlDiagnostico en medicina
http://www.generation5.org/content/2004/MedicalDiagnosis.aspAnemias
http://www.generation5.org/content/2004/NNinAnaemia.aspAplicaciones en Fsica de Altas Energas
http://neuralnets.web.cern.ch/NeuralNets/nnwInHep.htmlEjemplos varios
http://www.calsci.com/Applications.htmlDiversas implementaciones
http://www.neural-networks-at-your-fingertips.com/Demos en Java
http://diwww.epfl.ch/mantra/tutorial/english/
24 de octubre de 2005 Facultat dInformatica - UPV
Redes Neuronales. 2005-2006 Introduccion: 18
Index
1 Modelos conexionistas . 2
2 La neurona . 6
3 Los neurocomputadores . 10
4 Aplicaciones de los modelos conexionistas . 12
5 Marco estadstico para los modelos conexionistas . 18
6 Del perceptron al perceptron multicapa . 24
24 de octubre de 2005 Facultat dInformatica - UPV
Redes Neuronales. 2005-2006 Introduccion: 19
Teora estadstica de la decision
Los objetos a clasificar pertenecen a una de las M posibles clases.Cada objeto esta representado por un vector de caractersticas perteneciente a IRdo a 1 ...d.La probabilidad de que dado un objeto ~x IRd sea de la clase y {1, . . . ,M} vienedado por Pr(Y = y | X = ~x)Un clasificador o regla de clasificacion : IRd {1, ...,M}.
PREPROCESO YEXTRACCIN DE
CARACTERSTICASADQUISICIN
106
CLASIFICADORVIRGINIA
VERSICOLOR
MODELOS
OBJETO
VECTORDE
CARACTERSTICASCLASEIMAGEN
24 de octubre de 2005 Facultat dInformatica - UPV
-
Redes Neuronales. 2005-2006 Introduccion: 20
Teora estadstica de la decision
Dado un objeto ~x de la clase y, el clasificador comete un error si (~x) = y 6= y, conun coste del error L(y, y).Riesgo total
R() =My=1
IRd
L(y, (~x)) Pr(~x, y) d~x
Regla de decision de Bayes: La regla de clasificacion que minimiza el riesgo totalbajo la funcion de coste 0-1 L es:
o = argmin
R() o(~x) = argmax1yM
Pr(y|~x)
Por el Teorema de Bayes Pr(y|~x) = Pr(~x|y) Pr(y)/Pr(~x):
o(~x) = argmax1yM
Pr(~x|y) Pr(y)
24 de octubre de 2005 Facultat dInformatica - UPV
Redes Neuronales. 2005-2006 Introduccion: 21
Frontera de decisionLa regla de decision define M regiones de decision:
Ry ={~x IRd y = argmax
1yMPr(y | ~x)
}
La frontera de decision entre dos clases y y y contiguas es:
FD(y, y) ={~x IRd Pr(y | ~x) = Pr(y | ~x)
}
R
3
FD(1,2)
FD(2,3)
FD(1,3)
R
3R
2
R
1
24 de octubre de 2005 Facultat dInformatica - UPV
Redes Neuronales. 2005-2006 Introduccion: 22
Diseno de un clasificador
En general, Pr(y|~x) es desconocida, por lo que se busca estimar
pr(y|~x) Pr(y|~x)
Una regla de clasificacion inspirada en la regla de decision de Bayes podra ser
(~x) = argmax1yM
pr(y|~x)
Por ejemplo
pr(y|~x) =pr(y) pr(~x | y)
pr(~x):
pr(~x|y) =exp[12(~x~y)T1(~x~y)]
(2pi)d/2||1/2
pr(1), . . . ,pr(M)
= (pr(1), . . . ,pr(M), ~1, . . . , ~M ,) con ~y IRd (1 y M) y IRdd.24 de octubre de 2005 Facultat dInformatica - UPV
Redes Neuronales. 2005-2006 Introduccion: 23
Diseno de un clasificador
1. Estimacion de en pr(y|~x) a partir de una muestra de entrenamiento
A ={(~xi, yi) | ~xi IRd, 1 yi M para 1 i n
}2. Clasificacion de una muestra desconocida dada ~x IRd en (~x) {1, . . . ,M}
(~x) = argmax1yM
pr(y|~x)
3. Evaluacion del clasificador a partir de una muestra de test T 6= A
T ={(~xi, yi) | ~xi IRd, 1 yi M para 1 i m
}RT () =
1m
mi=1
L(yi, (~xi))
24 de octubre de 2005 Facultat dInformatica - UPV
-
Redes Neuronales. 2005-2006 Introduccion: 24
Index
1 Modelos conexionistas . 2
2 La neurona . 6
3 Los neurocomputadores . 10
4 Aplicaciones de los modelos conexionistas . 12
5 Marco estadstico para los modelos conexionistas . 18
6 Del perceptron al perceptron multicapa . 24
24 de octubre de 2005 Facultat dInformatica - UPV
Redes Neuronales. 2005-2006 Introduccion: 25
El perceptron
x 1 x 2 x
d
w 1w
2w
d
w0
Entradas
Pesos
Umbral
1
g
. . .
. . .
El perceptron es una funcion lineal:
g(~x) =d
k=1
kxk + 0,
Y una regla de clasificacion (para dosclases)
P (~x) ={
1 si g(~x) > 02 si g(~x) < 0
24 de octubre de 2005 Facultat dInformatica - UPV
Redes Neuronales. 2005-2006 Introduccion: 26
El perceptron para M clases
x 1 x 2 x 3
g (x) 1 g (x) 2 g (x) 3 g (x) 4 g (x) 5 g (x) 6
1 2 3 4 5 6
EL PROBLEMA DE LAS M CLASES
~g : IRd IRM : gj(~x) =di=1
ijxi + 0j = ~j ~x
i para 1 j M
REGLA DE CLASIFICACIONP (~x) = argmax
jgj(~x)
24 de octubre de 2005 Facultat dInformatica - UPV
Redes Neuronales. 2005-2006 Introduccion: 27
El perceptron para M clases
APRENDIZAJE DE LOS PESOS: Dada una muestra de aprendizaje A ={(~x1,~t1), ..., (~xn,~tn)}, con ~xi IRd, ~ti IRM , encontrar el conjunto de M vectores~
j tales que tal que minimicen:
EA() = 12nni=1
Mj=1
(ti,j gj(~xi))2
EL ALGORITMO DE WIDROW-HOFF
Para 1 j M
~j(1) = arbitrario
~j(k + 1) = ~
j(k) k
(tj(k) ~ j(k) ~x
(k))~x(k)
24 de octubre de 2005 Facultat dInformatica - UPV
-
Redes Neuronales. 2005-2006 Introduccion: 28
El perceptron multicapa
x 1 x 2
1,1 1,2 1,3 1,4 1,5
x 3
1,6l = 1
l = 0
1s 4
0s 2
0s i
1w 6,3
1w i,j
2,1 2,2 2,3
2s 3
2w i,j
2s i
l = 2
2w 3,6
2s 2
2s 1
s2j = f(e2j)
e2j =
iw2j,is
1i
s1j = f(e
1j)
e1j =
iw1j,ixi
Funcion de activacion sigmoid
f(ekj ) =1
1+exp(ekj )
24 de octubre de 2005 Facultat dInformatica - UPV
Redes Neuronales. 2005-2006 Introduccion: 29
El perceptron multicapa
24 de octubre de 2005 Facultat dInformatica - UPV
Redes Neuronales. 2005-2006 Introduccion: 30
El perceptron multicapa
REGLA DE CLASIFICACION: PM(~x) = argmaxj
s2j(~x)
APRENDIZAJE DE LOS PESOS: Dada una de un perceptron multicapa y A ={(~x1,~t1), ..., (~xn,~tn)}, con ~xi IRN0, ~ti IRN2, encontrar un conjunto de pesos tal que minimice:
EA() = 12nni=1
N2j=1
(ti,j s2j(~xi)
)2 Correccion de los pesos de la capa de salida (1 i N2, 0 j N1)
2ij = n
p=1
2i (~xp) s1j(~xp)
2i (~xp) =
(tp,i s2i (~xp)
)f (e2i (~xp))
Correccion de los pesos de la capa oculta 1 i N1, 0 j N0
1ij = n
p=1
1i (~xp) xp,j 1i (~xp) =
(r
2r(~xp) 2ri
)f (e1i (~xp))
24 de octubre de 2005 Facultat dInformatica - UPV