Presentacion Redes Neuronales

download Presentacion Redes Neuronales

of 8

description

Este documento es un documento electronico en formato PDF acerca de las redes neurales

Transcript of Presentacion Redes Neuronales

  • Facultat dInforma`ticaEnginyeria Informa`tica

    2005-2006

    Redes Neuronales

    1. IntroduccionFrancisco Casacuberta Nolla

    [email protected]

    24 de octubre de 2005

    Redes Neuronales. 2005-2006 Introduccion: 1

    Index

    1 Modelos conexionistas . 2

    2 La neurona . 6

    3 Los neurocomputadores . 10

    4 Aplicaciones de los modelos conexionistas . 12

    5 Marco estadstico para los modelos conexionistas . 18

    6 Del perceptron al perceptron multicapa . 24

    24 de octubre de 2005 Facultat dInformatica - UPV

    Redes Neuronales. 2005-2006 Introduccion: 2

    Index

    1 Modelos conexionistas . 2

    2 La neurona . 6

    3 Los neurocomputadores . 10

    4 Aplicaciones de los modelos conexionistas . 12

    5 Marco estadstico para los modelos conexionistas . 18

    6 Del perceptron al perceptron multicapa . 24

    24 de octubre de 2005 Facultat dInformatica - UPV

    Redes Neuronales. 2005-2006 Introduccion: 3

    Modelos conexionistas

    Un conjunto de procesadores elementales densamente inteconectados

    Los modelos conexionistas proporcionan mecanismos generales para construirmodelos de sistemas a partir de datos de los mismos

    Otros nombres:

    Modelos conexionistas

    Redes neuronales artificiales

    Procesadores distribuidos y paralelos

    24 de octubre de 2005 Facultat dInformatica - UPV

  • Redes Neuronales. 2005-2006 Introduccion: 4

    Breve historia de los modelos conexionistas

    ANTECEDENTES: Papiro de Edward Smith (3.000 A.C.) Estudio de la actividad cerebral de W. James (1890).LOS PRIMEROS MODELOS: Modelo simple de neurona: McCulloch y Pitt (1943).

    sj(t) = I(Xi

    jisi(t 1) > j) 0 < ji < 1

    Regla de aprendizaje: Hebb (1949):

    ji := ji + si sj

    Simulacion software: Rochester -IBM- (1950).LOS PRIMEROS GRANDES RESULTADOS: Dermoth Summer Research Project on AI (1956). El PERCEPTR ON: Rosenblat (1959). El ADALINE: Widrow y Hoff (1959).

    24 de octubre de 2005 Facultat dInformatica - UPV

    Redes Neuronales. 2005-2006 Introduccion: 5

    Breve historia de los modelos conexionistas

    FORMALIZACION: Resultados pesimistas: Minsky y Papert (1969)EL OLVIDO HASTA 1980: Falta de fondos pero algunos continuan: Anderson, Fukushima, Kohonen, Gross-

    berg, Rumelhart, Amari, Hopfield, etc.

    RESURGIMIENTO EN LOS 80: Nuevos algoritmos, arquitecturas y experimentos demostrativos: Hopfield (1982),

    Rumelhart-Hinton-Williams (1986), Kohonen (1984). Nuevas tecnologas. Grandes proyectos: 5. Generacion, Informe Alvey.APOGEO 1986 A 1995: Multitud de libros, revistas y congresos, Inumerables aplicaciones.ASENTAMIENTO A PARTIR DE 1996: Resultados formales: Bishop (1996), Rippley (1996), Ney (1995), Lugosi (1998), etc.

    24 de octubre de 2005 Facultat dInformatica - UPV

    Redes Neuronales. 2005-2006 Introduccion: 6

    Index

    1 Modelos conexionistas . 2

    2 La neurona . 6

    3 Los neurocomputadores . 10

    4 Aplicaciones de los modelos conexionistas . 12

    5 Marco estadstico para los modelos conexionistas . 18

    6 Del perceptron al perceptron multicapa . 24

    24 de octubre de 2005 Facultat dInformatica - UPV

    Redes Neuronales. 2005-2006 Introduccion: 7

    La neurona

    Celula especializada fundamental del sistema nervioso.

    Existen 1011 neuronas en el cerebro humano y 1015 conexiones.

    Partes de una neurona tpica:Cuerpo celular (5 a 100 micras)

    Axon (0,1 mm a 1 m)

    Dendron: Dendritas.

    Telodendron: Terminales axonicos.Sinapsis: zona de contacto entre terminales axonicos de una neurona y las dendritas

    de otra neurona.

    24 de octubre de 2005 Facultat dInformatica - UPV

  • Redes Neuronales. 2005-2006 Introduccion: 8

    La neurona

    Nucleo

    Dendritas

    Axon

    Soma

    Terminales axonicos

    Dendrita

    Axon

    neurotransmisores

    24 de octubre de 2005 Facultat dInformatica - UPV

    Redes Neuronales. 2005-2006 Introduccion: 9

    La neurona

    Transmision de la informacion

    Senales electricas en el axon (frecuencia modulada).

    Senales qumicas en la sinapsis.

    Funcionamiento

    Cuando llega una senal a los terminales axonicos se liberan neurotransmisores.

    Los neurotransmisores en las dendritas provocan una despolarizacion que se reali-menta y se transmite a las regiones vecinas.

    Si la acumulacion de potencial supera un umbral se produce un disparo por el axon(sinapsis de excitacion). Hay sinapsis con efecto negativo (sinapsis de inhibicion).

    24 de octubre de 2005 Facultat dInformatica - UPV

    Redes Neuronales. 2005-2006 Introduccion: 10

    Index

    1 Modelos conexionistas . 2

    2 La neurona . 6

    3 Los neurocomputadores . 10

    4 Aplicaciones de los modelos conexionistas . 12

    5 Marco estadstico para los modelos conexionistas . 18

    6 Del perceptron al perceptron multicapa . 24

    24 de octubre de 2005 Facultat dInformatica - UPV

    Redes Neuronales. 2005-2006 Introduccion: 11

    Las neurocomputadoras

    Neurocomputador: conjunto de procesadores interconectados que operanconcurrentemente que implementan modelos conexionistas

    APROXIMACIONES

    Computadores secuenciales: Simuladores software.

    Computadores paralelos: Simuladores.

    Circuitos integrados especficos (Chips neuronales)

    24 de octubre de 2005 Facultat dInformatica - UPV

  • Redes Neuronales. 2005-2006 Introduccion: 12

    Index

    1 Modelos conexionistas . 2

    2 La neurona . 6

    3 Los neurocomputadores . 10

    4 Aplicaciones de los modelos conexionistas . 12

    5 Marco estadstico para los modelos conexionistas . 18

    6 Del perceptron al perceptron multicapa . 24

    24 de octubre de 2005 Facultat dInformatica - UPV

    Redes Neuronales. 2005-2006 Introduccion: 13

    Aplicaciones

    CLASIFICACION

    REGRESION

    Simulacion

    Control y automatizacion

    Prediccion

    Ayuda al diagnostico

    24 de octubre de 2005 Facultat dInformatica - UPV

    Redes Neuronales. 2005-2006 Introduccion: 14

    Aplicaciones: clasificacion

    Deteccion fraudes tarjetas credito (America Express, HNC Software, Nestor Inc. andFraud Detection Systems)Reconocimiento de caracteres impresos para fax (Cardiff Software)Reconocimiento de caracteres manuscritos (HNC Software, Electronic Data Publish-ing, Inc., Audre Recognition Systems, Caere Corporation, Synaptics, Lexicus)Deteccion de sucesos significativos en fotografas producidas por aceleradores departculas (CERN).Procesadores de formularios (Eastman Kodak)Entrada a un computador mediante lapiz (Fujitsu. Apple Computer, Synaptics)Verificacion de firmas en cheques (NeuroMetric Vision System Inc.)Minera de datos (Supermercados USA)Analisis de olores en alimentacion (AlphaMOS, AromaScan Inc. Coca-Cola, Blood-hound Sensors Ltd., Neotronics Scientific, Sharp Corporation -hornos-)Aplicaciones medicas: detecciones de celulas cancergenas, malformaciones, pre-vencion de problemas de la anestesia, modelado de la esquizofrenia, deteccion delos ataques de epilepsia, ayuda a la diagnosis de la esclerosis multiple, etc.

    24 de octubre de 2005 Facultat dInformatica - UPV

    Redes Neuronales. 2005-2006 Introduccion: 15

    Aplicaciones: prediccion

    Ayuda a la toma de deciciones de prestamos (Chase Manhattan Bank, Chase Finan-cial Technologies)Prevision de utilizacion de vuelos (BehavHeuristics Inc.)Prediccion de ventas de consumo de refrescos (Britvic)Venta por correo, propaganda y catalogos (Microsoft, NeuralWare, HNC SoftwareInc.)Prevision metereologica (National Weather Service)Prevision de stocks (Carl & Associates, Neural Applications Corporation, NeuroDi-mension Inc., Walkrich Investment Advisors)Prevision de precios (Daiwa Securities Co., Ltd. and NEC Corporation)Pensiones (John Deere & Company)Habitos de uso de tarjetas (MasterCard, Visa, Adaptive Decision Systems)Prevision de demanda electrica (Bayernwerk AG, Britvic, Electric Power ResearchInstitute, Pacific Gas & Electric, PUB Singapore, Vattenfall)

    24 de octubre de 2005 Facultat dInformatica - UPV

  • Redes Neuronales. 2005-2006 Introduccion: 16

    Aplicaciones: control y automatizacion

    Control en la fabricacion de vehculos (Volvo en motores y pintura).Prediccion de fallos en motores electricos (Siemens).Control de fotocopiadoras (Ricoh).Refinado petrolfero (Texaco).Fabricacion de acero (Fujitsu prevencion de vertidos, Neural Applications Corpora-tion, Nippon Steel, Siemens en control del laminaje )Control de calidad (Florida Department of Citrus en ctricos, Frito-Lay en las patatasfritas, NLK - Celpap en la produccion de papel, Monsanto en la fabricacion de plastico,Netrologic, Inc. en soldaduras)Detecion de fallos (London Underground, Rolls Royce, AT&T/Lucent Technologies)Control fabricacion de altavoces (CTS Electronic)Control de produccion de chips (Intel)Sistemas de vision (Applied Intelligent Systems)Control (Fujitsu, Honeywell, Pavilion Technologies)

    24 de octubre de 2005 Facultat dInformatica - UPV

    Redes Neuronales. 2005-2006 Introduccion: 17

    Algunas aplicacionesAplicaciones

    http://electronica.com.mx/neural/aplicaciones/index.htmlTratamiento de la informacion financiera

    http://www.ciberconta.unizar.es/Biblioteca/0004/SerGall96.htmlMinera de datos

    http://www.cazv.cz/2003/AE9_03/6-Vesely.pdfAproximacion de funcioneshttp://neuron.eng.wayne.edu/bpFunctionApprox/bpFunctionApprox.htmlDiagnostico en medicina

    http://www.generation5.org/content/2004/MedicalDiagnosis.aspAnemias

    http://www.generation5.org/content/2004/NNinAnaemia.aspAplicaciones en Fsica de Altas Energas

    http://neuralnets.web.cern.ch/NeuralNets/nnwInHep.htmlEjemplos varios

    http://www.calsci.com/Applications.htmlDiversas implementaciones

    http://www.neural-networks-at-your-fingertips.com/Demos en Java

    http://diwww.epfl.ch/mantra/tutorial/english/

    24 de octubre de 2005 Facultat dInformatica - UPV

    Redes Neuronales. 2005-2006 Introduccion: 18

    Index

    1 Modelos conexionistas . 2

    2 La neurona . 6

    3 Los neurocomputadores . 10

    4 Aplicaciones de los modelos conexionistas . 12

    5 Marco estadstico para los modelos conexionistas . 18

    6 Del perceptron al perceptron multicapa . 24

    24 de octubre de 2005 Facultat dInformatica - UPV

    Redes Neuronales. 2005-2006 Introduccion: 19

    Teora estadstica de la decision

    Los objetos a clasificar pertenecen a una de las M posibles clases.Cada objeto esta representado por un vector de caractersticas perteneciente a IRdo a 1 ...d.La probabilidad de que dado un objeto ~x IRd sea de la clase y {1, . . . ,M} vienedado por Pr(Y = y | X = ~x)Un clasificador o regla de clasificacion : IRd {1, ...,M}.

    PREPROCESO YEXTRACCIN DE

    CARACTERSTICASADQUISICIN

    106

    CLASIFICADORVIRGINIA

    VERSICOLOR

    MODELOS

    OBJETO

    VECTORDE

    CARACTERSTICASCLASEIMAGEN

    24 de octubre de 2005 Facultat dInformatica - UPV

  • Redes Neuronales. 2005-2006 Introduccion: 20

    Teora estadstica de la decision

    Dado un objeto ~x de la clase y, el clasificador comete un error si (~x) = y 6= y, conun coste del error L(y, y).Riesgo total

    R() =My=1

    IRd

    L(y, (~x)) Pr(~x, y) d~x

    Regla de decision de Bayes: La regla de clasificacion que minimiza el riesgo totalbajo la funcion de coste 0-1 L es:

    o = argmin

    R() o(~x) = argmax1yM

    Pr(y|~x)

    Por el Teorema de Bayes Pr(y|~x) = Pr(~x|y) Pr(y)/Pr(~x):

    o(~x) = argmax1yM

    Pr(~x|y) Pr(y)

    24 de octubre de 2005 Facultat dInformatica - UPV

    Redes Neuronales. 2005-2006 Introduccion: 21

    Frontera de decisionLa regla de decision define M regiones de decision:

    Ry ={~x IRd y = argmax

    1yMPr(y | ~x)

    }

    La frontera de decision entre dos clases y y y contiguas es:

    FD(y, y) ={~x IRd Pr(y | ~x) = Pr(y | ~x)

    }

    R

    3

    FD(1,2)

    FD(2,3)

    FD(1,3)

    R

    3R

    2

    R

    1

    24 de octubre de 2005 Facultat dInformatica - UPV

    Redes Neuronales. 2005-2006 Introduccion: 22

    Diseno de un clasificador

    En general, Pr(y|~x) es desconocida, por lo que se busca estimar

    pr(y|~x) Pr(y|~x)

    Una regla de clasificacion inspirada en la regla de decision de Bayes podra ser

    (~x) = argmax1yM

    pr(y|~x)

    Por ejemplo

    pr(y|~x) =pr(y) pr(~x | y)

    pr(~x):

    pr(~x|y) =exp[12(~x~y)T1(~x~y)]

    (2pi)d/2||1/2

    pr(1), . . . ,pr(M)

    = (pr(1), . . . ,pr(M), ~1, . . . , ~M ,) con ~y IRd (1 y M) y IRdd.24 de octubre de 2005 Facultat dInformatica - UPV

    Redes Neuronales. 2005-2006 Introduccion: 23

    Diseno de un clasificador

    1. Estimacion de en pr(y|~x) a partir de una muestra de entrenamiento

    A ={(~xi, yi) | ~xi IRd, 1 yi M para 1 i n

    }2. Clasificacion de una muestra desconocida dada ~x IRd en (~x) {1, . . . ,M}

    (~x) = argmax1yM

    pr(y|~x)

    3. Evaluacion del clasificador a partir de una muestra de test T 6= A

    T ={(~xi, yi) | ~xi IRd, 1 yi M para 1 i m

    }RT () =

    1m

    mi=1

    L(yi, (~xi))

    24 de octubre de 2005 Facultat dInformatica - UPV

  • Redes Neuronales. 2005-2006 Introduccion: 24

    Index

    1 Modelos conexionistas . 2

    2 La neurona . 6

    3 Los neurocomputadores . 10

    4 Aplicaciones de los modelos conexionistas . 12

    5 Marco estadstico para los modelos conexionistas . 18

    6 Del perceptron al perceptron multicapa . 24

    24 de octubre de 2005 Facultat dInformatica - UPV

    Redes Neuronales. 2005-2006 Introduccion: 25

    El perceptron

    x 1 x 2 x

    d

    w 1w

    2w

    d

    w0

    Entradas

    Pesos

    Umbral

    1

    g

    . . .

    . . .

    El perceptron es una funcion lineal:

    g(~x) =d

    k=1

    kxk + 0,

    Y una regla de clasificacion (para dosclases)

    P (~x) ={

    1 si g(~x) > 02 si g(~x) < 0

    24 de octubre de 2005 Facultat dInformatica - UPV

    Redes Neuronales. 2005-2006 Introduccion: 26

    El perceptron para M clases

    x 1 x 2 x 3

    g (x) 1 g (x) 2 g (x) 3 g (x) 4 g (x) 5 g (x) 6

    1 2 3 4 5 6

    EL PROBLEMA DE LAS M CLASES

    ~g : IRd IRM : gj(~x) =di=1

    ijxi + 0j = ~j ~x

    i para 1 j M

    REGLA DE CLASIFICACIONP (~x) = argmax

    jgj(~x)

    24 de octubre de 2005 Facultat dInformatica - UPV

    Redes Neuronales. 2005-2006 Introduccion: 27

    El perceptron para M clases

    APRENDIZAJE DE LOS PESOS: Dada una muestra de aprendizaje A ={(~x1,~t1), ..., (~xn,~tn)}, con ~xi IRd, ~ti IRM , encontrar el conjunto de M vectores~

    j tales que tal que minimicen:

    EA() = 12nni=1

    Mj=1

    (ti,j gj(~xi))2

    EL ALGORITMO DE WIDROW-HOFF

    Para 1 j M

    ~j(1) = arbitrario

    ~j(k + 1) = ~

    j(k) k

    (tj(k) ~ j(k) ~x

    (k))~x(k)

    24 de octubre de 2005 Facultat dInformatica - UPV

  • Redes Neuronales. 2005-2006 Introduccion: 28

    El perceptron multicapa

    x 1 x 2

    1,1 1,2 1,3 1,4 1,5

    x 3

    1,6l = 1

    l = 0

    1s 4

    0s 2

    0s i

    1w 6,3

    1w i,j

    2,1 2,2 2,3

    2s 3

    2w i,j

    2s i

    l = 2

    2w 3,6

    2s 2

    2s 1

    s2j = f(e2j)

    e2j =

    iw2j,is

    1i

    s1j = f(e

    1j)

    e1j =

    iw1j,ixi

    Funcion de activacion sigmoid

    f(ekj ) =1

    1+exp(ekj )

    24 de octubre de 2005 Facultat dInformatica - UPV

    Redes Neuronales. 2005-2006 Introduccion: 29

    El perceptron multicapa

    24 de octubre de 2005 Facultat dInformatica - UPV

    Redes Neuronales. 2005-2006 Introduccion: 30

    El perceptron multicapa

    REGLA DE CLASIFICACION: PM(~x) = argmaxj

    s2j(~x)

    APRENDIZAJE DE LOS PESOS: Dada una de un perceptron multicapa y A ={(~x1,~t1), ..., (~xn,~tn)}, con ~xi IRN0, ~ti IRN2, encontrar un conjunto de pesos tal que minimice:

    EA() = 12nni=1

    N2j=1

    (ti,j s2j(~xi)

    )2 Correccion de los pesos de la capa de salida (1 i N2, 0 j N1)

    2ij = n

    p=1

    2i (~xp) s1j(~xp)

    2i (~xp) =

    (tp,i s2i (~xp)

    )f (e2i (~xp))

    Correccion de los pesos de la capa oculta 1 i N1, 0 j N0

    1ij = n

    p=1

    1i (~xp) xp,j 1i (~xp) =

    (r

    2r(~xp) 2ri

    )f (e1i (~xp))

    24 de octubre de 2005 Facultat dInformatica - UPV