Parte I: MGPs
Transcript of Parte I: MGPs
![Page 1: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/1.jpg)
Parte I:Modelos Gráficos Probabilistas
L. Enrique SucarINAOE
![Page 2: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/2.jpg)
© E. Sucar, PGM: 1 Introducción 2
Información General
• Notas:http://ccc.inaoep.mx/~esucar/Tut-Mixteca• Correo:[email protected]
![Page 3: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/3.jpg)
© E. Sucar, PGM: 1 Introducción 3
Contenido
1. Introducción2. Métodos básicos3. Clasificadores bayesianos4. Redes bayesianas5. Aprendizaje de redes bayesianas6. Campos de Markov
![Page 4: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/4.jpg)
© E. Sucar, PGM: 1 Introducción 4
Referencias Generales• J. Pearl, Probabilistic Reasoning in Intelligent
Systems, Morgan-Kaufman, 1988• R. Neapolitan, Probabilistic Reasoning in Expert
Systems, Wiley, 1990• F. Jensen, Bayesian Networks and Decision
Graphs, Springer, 2001• A. Darwiche, Modeling and Reasoning with
Bayesian Networks, Cambridge, 2009• D. Koller & N. Friedman, Probabilistic Graphical
Models: Principals and Techniques, MIT Press,2009
![Page 5: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/5.jpg)
I.1: Introducción
“Vivir es el arte de derivar conclusionessuficientes de premisas insuficientes”[S. Butler]
![Page 6: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/6.jpg)
© E. Sucar, PGM: 1 Introducción 6
Modelos Gráficos Probabilistas• Representaciones basadas en modelar
la incertidumbre con variablesprobabilistas relacionadas medianteun modelo gráfico (dependencias)
• Muchas técnicas se pueden englobardentro de este tipo de modelos
![Page 7: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/7.jpg)
© E. Sucar, PGM: 1 Introducción 7
Modelos Gráficos Probabilistas• Podemos clasificar los modelos gráficos
probabilistas en 3 dimensiones principales:– Dirigidos vs. No-dirigidos– Estáticos vs. Dinámicos– Probabilista vs. Decisiones
![Page 8: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/8.jpg)
© E. Sucar, PGM: 1 Introducción 8
Modelos Gráficos Probabilistas
• Dirigido • No-dirigido
1
32
4 5
1
32
4 5
![Page 9: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/9.jpg)
© E. Sucar, PGM: 1 Introducción 9
Modelos Gráficos Probabilistas
• Estático • Dinámico
St St+1 St+2 St+3
E E E E
C
H
E
![Page 10: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/10.jpg)
© E. Sucar, PGM: 1 Introducción 10
Modelos Gráficos Probabilistas
• Probabilista • Decisiones
St St+1 St+2
E E E
A
B C
D
U
D
![Page 11: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/11.jpg)
© E. Sucar, PGM: 1 Introducción 11
Modelos Gráficos Probabilistas
DDDPOMDPsDDDProcesos de decisión de MarkovDSDRedes de DecisiónPDDFiltros de KalmanPDDRedes bayesianas dinámicasPSDRedes bayesianasPSNCampos / Redes de MarkovPDDCadenas ocultas de MarkovPSD/NClasificador bayesiano
P/DS/DD/NModelo
![Page 12: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/12.jpg)
© E. Sucar, PGM: 1 Introducción 12
Aplicaciones
• Existen actualmente muchas aplicacionesde PGMs, como:– Reconocimiento de ademanes y actividades– Diagnóstico industrial– Modelado del estudiante– Navegación robótica– Validación de sensores– …
![Page 13: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/13.jpg)
© E. Sucar, PGM: 1 Introducción 13
Reconocimiento de actividadeshumanas
![Page 14: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/14.jpg)
© E. Sucar, PGM: 1 Introducción 14
Reconocimiento de ademanes
S
hand Face
right
Torso
above
S
torso
hand Face
right
Torso
above torso
A
T T+1
SX,Y A SX,Y
![Page 15: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/15.jpg)
© E. Sucar, PGM: 1 Introducción 15
Diagnóstico industrial
FWF
FWPF LI
SWVF
SWV
SWF
FWVF
FWV FWP STV
STF
DRL
DRP
STT
FWPFOccur 0.58¬Occur 0.42
LIOccur 0.88¬Occur 0.12
FWVFOccur 0.57¬Occur 0.43
SWVFOccur 0.18¬Occur 0.82
FWPtrue, [10-29] = 0.36true, [29-107] = 0.57false, [10-107] = 0.07
STVTrue, [0-18] = 0.69True, [18-29] = 0.20False, [0-29] = 0.11
STFTrue, [52-72] = 0.65True, [72-105] = 0.24False, [52-105] = 0.11
FWVTrue, [28-41] = 0.30True, [41-66] = 0.27False, [28-66] = 0.43
SWVTrue, [20-33] = 0.11True, [33-58] = 0.13False, [20-58] = 0.76
FWFTrue, [25-114] = 0.77True, [114-248] = 0.18False, [25-248] = 0.05
SWFTrue, [108-170] = 0.75True, [170-232] = 0.21False, [108-232] = 0.04
STTDecrement, [10-42] = 0.37Decrement, [42-100] = 0.14Decrement, [100-272] = 0.47False, [10-272] = 0.02
DRPTrue, [30-70] = 0.58True, [70-96] = 0.40False, [30-96] = 0.02
DRLIncrement, [10-27] = 0.49Increment, [27-135] = 0.09Decrement, [22-37] = 0.28Decrement [37-44] = 0.12False, [10-135] = 0.02
![Page 16: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/16.jpg)
© E. Sucar, PGM: 1 Introducción 16
Modelado del estudiante
Experiment results Experiment behavior
Knowledge objects
Student
![Page 17: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/17.jpg)
© E. Sucar, PGM: 1 Introducción 17
Navegación robótica
St St+1 St+2 St+3
at-1 at at+1 at+2
rtrt+1 rt+2 rt+3
…
at-1 at at+1 at+2
rtrt+1 rt+2 rt+3
![Page 18: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/18.jpg)
© E. Sucar, PGM: 1 Introducción 18
Validación de sensores
GeneradorCámara decombustión Turbina
CH4
CH1 CH1CH1 CH1 CH1 CH1 CH1CH1CH1
CH4 CH4 CH4
CH4 CH4
![Page 19: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/19.jpg)
© E. Sucar, PGM: 1 Introducción 19
Referencias
• Ng & Abramson, “UncertaintyManagement in Expert Systems”, IEEEExpert, Abril 1990.
• [Russell y Norvig] Cap. 14• [Pearl] Cap.1
![Page 20: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/20.jpg)
I.2: Métodos Básicos“…las reglas mátemáticas de la probabilidad no son simplementereglas para calcular frecuencias de variables aleatorias; sontambién las únicas reglas consistentes para realizar inferencia decualquier tipo …”[E. T. Jaynes 2003]
![Page 21: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/21.jpg)
© E. Sucar, PGM: 1 Introducción 21
Formulación
• Muchos problemas se pueden formularcomo un conjunto de variables sobre lasque tenemos cierta información y queremosobtener otra, por ejemplo:– Diagnóstico médico o industrial– Percepción (visión, voz, sensores)– Clasificación (bancos, empleadores, ...)– Modelado de estudiantes, usuarios, etc.
![Page 22: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/22.jpg)
© E. Sucar, PGM: 1 Introducción 22
Ejemplo
• Determinar si una persona es sujeta decrédito:– X1: otorgar crédito (si/no)– X2: ingreso anual (entero positivo)– X3: créditos anteriores (si/no)– X4: edad (entero positivo)– X5: ocupación (empleado, empresario, …)
![Page 23: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/23.jpg)
© E. Sucar, PGM: 1 Introducción 23
Formulación
• Desde el punto de vista de probabilidad sepuede ver como:– Un conjunto de variables aleatorias: X1, X2,
X3, ...– Cada variable es generalmente una partición
del espacio– Cada variable tiene una distribución de
probabilidad (conocida o desconocida)
![Page 24: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/24.jpg)
© E. Sucar, PGM: 1 Introducción 24
Variables y Particiones
• A = {A1, A2, A3}• B = {B1, B2, B3, B4, B5}
B1
B2
B3 B4
B5A1 A2 A3
![Page 25: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/25.jpg)
© E. Sucar, PGM: 1 Introducción 25
Preguntas
• Dada cierta información (como valores devariables y probabilidades), se requierecontestar ciertas preguntas, como:– Probabilidad de que una variable tome cierto
valor [marginal a priori]– Probabilidad de que una variable tome cierto
valor dada información de otra(s) variable(s)[condicional o a posteriori]
![Page 26: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/26.jpg)
© E. Sucar, PGM: 1 Introducción 26
Preguntas
– Valor de mayor probabilidad de una o másvariables [abducción]
– Valor de mayor probabilidad de una o másvariables dada información de otra(s)variable(s) [abducción parcial o explicación]
– Parámetros del modelo dados datos históricosde las variables [estimación o aprendizaje]
![Page 27: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/27.jpg)
© E. Sucar, PGM: 1 Introducción 27
Enfoque básico (fuerza bruta)
• Dada la probabilidad conjunta de lasvariables, para todos los posibles valores decada una (asumimos por ahora que sondiscretas):
P(X1, X2, X3, ..., Xn)
• podemos estimar todas las probabilidadesrequeridas
![Page 28: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/28.jpg)
© E. Sucar, PGM: 1 Introducción 28
Inferencia
• Probabilidad marginal (cuál es la probabilidad delas diferentes ocupaciones):p(X) = ΣY, Z p(X,Y, Z)
• Probabilidad condicional (cuál es la probabilidadde otorgar el crédito dado cierto nivel de ingreso) :p(X | Y) = p(X,Y) / p(Y)
• Donde:p(X,Y) = ΣZ p(X,Y, Z)
![Page 29: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/29.jpg)
© E. Sucar, PGM: 1 Introducción 29
Abducción• Valor más probable (qué tipo de ocupación es el más
común):ArgX [max p(X) = max ΣY, Z p(X,Y, Z) ]
• Valor condicional más probable (debo o no otorgar elcrédito):ArgX [max p(X | y1) = max p(X,y1) / p(y1) ]
• Valor conjunto más probable (que combinación deocupación y edad es la más probable):ArgX,Y [max p(X,Y) = max ΣZ p(X,Y, Z) ]
![Page 30: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/30.jpg)
© E. Sucar, PGM: 1 Introducción 30
Ejemplo
• Problema de decidir cuando jugar golf?• Variables
– Ambiente– Temperatura– Viento– Humedad– Jugar
![Page 31: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/31.jpg)
© E. Sucar, PGM: 1 Introducción 31
Ejemplo
• Consideremos inicialmente dos variables:ambiente (S,N,Ll) y temperatura (A,M,B)
• Dada la tabla de P conjunta, encontrar:– Probabilidad de ambiente, temperatura– Probabilidad de ambiente conocida la
temperatura (y viceversa)– Combinación de A y T más probable– Ambiente más probable dada la temperatura (y
viceversa)
![Page 32: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/32.jpg)
© E. Sucar, PGM: 1 Introducción 32
Ejemplo
![Page 33: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/33.jpg)
© E. Sucar, PGM: 1 Introducción 33
Limitaciones
• El tamaño de la tabla y el número deoperaciones crece exponencialmente con elnúmero de variables
• La “tabla” conjunta nos dice poco sobre elfenómeno que estamos analizando
• Puede ser difícil estimar las probabilidadesrequeridas (por expertos o a partir datos)
![Page 34: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/34.jpg)
© E. Sucar, PGM: 1 Introducción 34
Estimación de Parámetros• Dados un conjunto de valores de las
variables (registros), se busca estimar lasprobabilidades conjuntas requeridas
• Considerando datos completos:– Las probabilidades se pueden estimar contando
el número de casos de cada valorP(Xi,Yj) ~ Ni,j / N
– Esto corresponde al estimador de máximaverosimilitud cuando no hay valores faltantes
![Page 35: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/35.jpg)
© E. Sucar, PGM: 1 Introducción 35
Ejemplo
• Dados datos sobre lo que “jugadores” hanhecho en situaciones pasadas, podemosestimar la probabilidad conjunta
• Consideremos el caso de 2 variables(ambiente y temperatura) y 14 registros dedatos
![Page 36: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/36.jpg)
© E. Sucar, PGM: 1 Introducción 36
Ejemplos
Ambiente Temp. Humedad Viento Jugarsoleado alta alta no Nsoleado alta alta si Nnublado alta alta no Plluvia media alta no Plluvia baja normal no Plluvia baja normal si Nnublado baja normal si Psoleado media alta no Nsoleado baja normal no Plluvia media normal no Psoleado media normal si Pnublado media alta si Pnublado alta normal no Plluvia media alta si N
![Page 37: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/37.jpg)
© E. Sucar, PGM: 1 Introducción 37
Ejemplo
![Page 38: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/38.jpg)
© E. Sucar, PGM: 1 Introducción 38
Limitaciones
• Se requiere una gran cantidad de datos paraestimaciones confiables
• Se complica si hay datos faltantes• Puede ser mejor estimar probabilidades
marginales o condicionales (menos datos,más fácil para el experto)
• También puede ser complejo el tenerdemasiados datos (minería de datos)
![Page 39: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/39.jpg)
© E. Sucar, PGM: 1 Introducción 39
Alternativas
• El problema de complejidad computacional utilizando elenfoque básico (tanto en espacio para representar elmodelo, como en tiempo para el cálculo deprobabilidades), nos lleva a buscar alternativas
• Los modelos gráficos probabilistas proveen estaalternativa, mediante representaciones muchos máscompactas (y entendibles) y técnicas eficientes para elcálculo de las probabilidades
![Page 40: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/40.jpg)
I.3: Clasificadores bayesianos
![Page 41: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/41.jpg)
© E. Sucar, PGM: 1 Introducción 41
Clasificación
• El concepto de clasificación tiene dossignificados:– No supervisada: dado un conjunto de datos,
establecer clases o agrupaciones (clusters)– Supervisada: dadas ciertas clases, encontrar
una regla para clasificar una nueva observacióndentro de las clases existentes
![Page 42: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/42.jpg)
© E. Sucar, PGM: 1 Introducción 42
Clasificación
• El problema de clasificación (supervisada)consiste en obtener el valor más probable de unavariable (hipótesis) dados los valores de otrasvariables (evidencia, atributos)
ArgH [ Max P(H | E1, E2, ...EN) ]ArgH [ Max P(H | EE) ]
EE = {E1, E2, ...EN}
![Page 43: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/43.jpg)
© E. Sucar, PGM: 1 Introducción 43
Tipos de Clasificadores
• Métodos estadísticos clásicos– Clasificador bayesiano simple (naive Bayes)– Descriminadores lineales
• Modelos de dependencias– Redes bayesianas
• Aprendizaje simbólico– Árboles de decisión, reglas, …
• Redes neuronales, SVM, …
![Page 44: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/44.jpg)
© E. Sucar, PGM: 1 Introducción 44
Clasificación
• Consideraciones para un clasificador:– Exactitud – proporción de clasificaciones
correctas– Rapidez – tiempo que toma hacer la
clasificación– Claridad – que tan comprensible es para los
humanos– Tiempo de aprendizaje – tiempo para obtener o
ajustar el clasificador a partir de datos
![Page 45: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/45.jpg)
© E. Sucar, PGM: 1 Introducción 45
Regla de Bayes
• La probabilidad posterior se puede obteneren base a la regla de Bayes:
P(H | EE) = P(H) P(EE | H) / P(EE)P(H | EE) = P(H) P(EE | H) / Σi P(EE | Hi ) P(Hi)
• Normalmente no se requiere saber el valorde probabilidad, solamente el valor másprobable de H
![Page 46: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/46.jpg)
© E. Sucar, PGM: 1 Introducción 46
Regla de Bayes
• Para el caso de 2 clases H:{0, 1}, la regla dedecisión de Bayes es:
H*(E) = 1 si P(H=1 | EE) > 1/20, de otra forma
• Se puede demostrar que la regla de Bayes esóptima
![Page 47: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/47.jpg)
© E. Sucar, PGM: 1 Introducción 47
Valores Equivalentes
• Se puede utilizar cualquier función monotónicapara la clasificación:
ArgH [ Max P(H | EE) ]ArgH [ Max P(H) P(EE | H) / P(EE) ]
ArgH [ Max P(H) P(EE | H) ]ArgH [ Max log {P(H) P(EE | H)} ]
ArgH [ Max ( log P(H) + log P(EE | H) ) ]
![Page 48: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/48.jpg)
© E. Sucar, PGM: 1 Introducción 48
Clasificador bayesiano simple
• Estimar la probabilidad: P(EE | H) es complejo, pero sesimplifica si se considera que los atributos son independientesdada la hipotesis:
P(E1, E2, ...EN | H) = P(E1 | H) P(E2 | H) ... P(EN | H)• Por lo que la probabilidad de la hipótesis dada la evidencia
puede estimarse como:P(H | E1, E2, ...EN) = P(H) P(E1 | H) P(E2 | H) ... P(EN | H)
P(EE)• Esto se conoce como el clasificador bayesiano simple
![Page 49: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/49.jpg)
© E. Sucar, PGM: 1 Introducción 49
Clasificador bayesiano simple
• Como veíamos, no es necesario calcular eldenominador:
P(H | E1, E2, ...EN) ~P(H) P(E1 | H) P(E2 | H) ... P(EN | H)
• P(H) se conoce como la probabilidad a priori,P(Ei | H) es la probabilidad de los atributos dadala hipótesis (verosimilitud), y P(H | E1, E2,...EN) es la probabilidad posterior
![Page 50: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/50.jpg)
© E. Sucar, PGM: 1 Introducción 50
Ejemplo
• Para el caso del golf, cuál es la acción másprobable (jugar / no-jugar) dado elambiente y la temperatura?
![Page 51: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/51.jpg)
© E. Sucar, PGM: 1 Introducción 51
Ventajas
• Bajo tiempo de clasificación• Bajo tiempo de aprendizaje• Bajos requerimientos de memoria• “Sencillez”• Buenos resultados en muchos dominios
![Page 52: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/52.jpg)
© E. Sucar, PGM: 1 Introducción 52
Limitaciones
• En muchas ocasiones la suposición de independenciacondicional no es válida
• Para variables continuas, existe el problema dediscretización
• Alternativas – dependencias:– Estructuras que consideran dependencias– Mejora estructural del clasificador
• Alternativas – variables continuas:– Descriminador lineal (variables gaussianas)– Técnicas de discretización
![Page 53: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/53.jpg)
© E. Sucar, PGM: 1 Introducción 53
CBS – modelo gráfico
C
A2A1 An…
![Page 54: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/54.jpg)
© E. Sucar, PGM: 1 Introducción 54
Enfoques para clasificación
C
A
C
A
Generativo Descriminativo
P(C)P(A|C) P(C|A)
![Page 55: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/55.jpg)
© E. Sucar, PGM: 1 Introducción 55
Extensiones
• TAN
C
A2A1 An…
Se incorpora algunasdependencias entre atributos mediante laconstrucción de un“árbol” entre ellos (másadelante veremos comose aprende el árbol)
![Page 56: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/56.jpg)
© E. Sucar, PGM: 1 Introducción 56
Extensiones
• BAN
C
A2
A1 An…
Se incorpora una “red” para modelar lasdependencias entre atributos (también más adelante veremos comoaprender una red).
![Page 57: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/57.jpg)
© E. Sucar, PGM: 1 Introducción 57
Mejora estructural
• Otra alternativa para mejorar el CBS es partir de unaestructura “simple” y modificarla mediante:– Eliminación de atributos irrelevantes (selección de atributos)– Verificación de las relaciones de independencia entre atributos y
alterando la estructura:• Eliminar nodos• Combinar nodos• Insertar nodos
![Page 58: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/58.jpg)
© E. Sucar, PGM: 1 Introducción 58
Eliminación de atributos• Medir la “dependencia” entre la clase y atributos
(por ejemplo con la información mutua), yeliminar aquellos con “poca” aportación
C
A2A1 A4A3
![Page 59: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/59.jpg)
© E. Sucar, PGM: 1 Introducción 59
Mejora estructural
• Medir la dependencia entre pares de atributos dada laclase (por ejemplo mediante la información mutuacondicional), alterar la estructura si hay 2 dependientes:
1. Eliminación: quitar uno de los dos (redundantes)2. Unión: juntar los 2 atributos en uno, combinando sus valores3. Inserción: insertar un atributo “virtual” entre la clase y los dos
atributos que los haga independientes.
![Page 60: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/60.jpg)
© E. Sucar, PGM: 1 Introducción 60
Mejora Estructural
YX
Z
X
Z
XY
Z W
Z
YX
![Page 61: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/61.jpg)
© E. Sucar, PGM: 1 Introducción 61
Atributos redundantes
• Prueba de dependencia entre cada atributoy la clase
• Información mutua:MI(C, Ai) = Σ P(C, Ai) log [P(C, Ai) / P(C) P(Ai)]
• Eliminar atributos que no proveaninformación a la clase
![Page 62: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/62.jpg)
© E. Sucar, PGM: 1 Introducción 62
Atributos dependientes
• Prueba de independencia de cada atributodada la clase
• Información mutua condicionalCMI(Ai, Aj | C) =
Σ P(Ai,Aj|C) log [P(Ai,Aj|C) / P(Ai|C) P(Aj|C)]
• Eliminar, unir o (insertar) atributos
![Page 63: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/63.jpg)
© E. Sucar, PGM: 1 Introducción 63
Discretización
• Si los atributos no siguen una distribucióngaussiana, la alternativa es convertirlos adiscretos agrupando los valores en unconjunto de rangos o intervalos
• Dos tipos de técnicas de discretización:– No supervisada: no considera la clase– Supervisada: en base a la clase
![Page 64: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/64.jpg)
© E. Sucar, PGM: 1 Introducción 64
Discretización no supervisada
• Intervalos iguales• Intervalos con los mismos datos• En base al histograma
![Page 65: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/65.jpg)
© E. Sucar, PGM: 1 Introducción 65
Discretización supervisada
• Considerando los posibles “cortes” entreclases:– Probar clasificador (con datos diferentes)– Utilizar medidas de información (p. ej., reducir
la entropía)• Problema de complejidad computacional
![Page 66: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/66.jpg)
© E. Sucar, PGM: 1 Introducción 66
Costo de mala clasificación
• En realidad, no sólo debemos considerar laclase más probable si no también el costode una mala clasificación– Si el costo es igual para todas las clases,
entonces es equivalente a seleccionar la demayor probabilidad
– Si el costo es diferente, entonces se debeminimizar el costo esperado
![Page 67: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/67.jpg)
© E. Sucar, PGM: 1 Introducción 67
Costo de mala clasificación• El costo esperado (para dos clases, + y -) está
dado por la siguiente ecuación:CE = FN p(-) C(-|+) + FP p(+) C(+|-)
FN: razón de falsos negativosFP: razón de falsos positivosp: probabilidad de negativo o positivoC(-|+): costo de clasificar un positivo como negativoC(+|-): costo de clasificar un negativo como positivo
• Considerando esto y también la proporción decada clase, existen técnicas más adecuadas paracomparar clasificadores como la curva ROC y lascurvas de costo
![Page 68: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/68.jpg)
© E. Sucar, PGM: 1 Introducción 68
Referencias• Clasificadores:
– D. Michie, D.J. Spiegelhalter , C.C. Taylor, “MachineLearning, Neural and Statistical Classification”, EllisHorwood, 1994
– L. E. Sucar, D. F. Gillies, D. A. Gillies, "ObjectiveProbabilities in Expert Systems", Artificial IntelligenceJournal, Vol. 61 (1993) 187-208.
– J. Cheng, R. Greiner, “Comparing Bayesian networkclassifiers”, UAI´99, 101-108.
– M. Pazzani, “Searching for attribute dependencies inBayesian classifiers”, Preliminary Papers of Intelligenceand Statistics, 424-429.
– M. Martínez, L.E. Sucar, “Learning an optimal naiveBayesian classifier”, ICPR, 2006
![Page 69: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/69.jpg)
© E. Sucar, PGM: 1 Introducción 69
Referencias• Evaluación:
– C. Drummond, R. C. Holte, “Explicitlyrepresenting expected cost: an alternative to theROC representation”.
![Page 70: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/70.jpg)
I.4: Redes Bayesianas
“La probabilidad no es realmente sobre números,es sobre la estructura del razonamiento”[G. Shafer]
![Page 71: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/71.jpg)
© E. Sucar, PGM: 1 Introducción 71
Representación
• Las redes bayesianas son unarepresentación gráfica de dependenciaspara razonamiento probabilístico, en la cuallos nodos y arcos representan:– Nodos: Variables proposicionales.– Arcos: Dependencia probabilística
• La variable a la que apunta el arco esdependiente (causa-efecto) de la que estáen el origen de éste.
![Page 72: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/72.jpg)
© E. Sucar, PGM: 1 Introducción 72
Ejemplo de una red bayesiana
Borracho
Sed Dolor-Cabeza
Vino
![Page 73: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/73.jpg)
© E. Sucar, PGM: 1 Introducción 73
Otro ejemplo
![Page 74: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/74.jpg)
© E. Sucar, PGM: 1 Introducción 74
Estructura
• La topología o estructura de la red nos dainformación sobre las dependenciasprobabilísticas entre las variables.
• La red también representa las independenciascondicionales de una variable (o conjunto devariables) dada otra variable(s).
![Page 75: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/75.jpg)
© E. Sucar, PGM: 1 Introducción 75
Ejemplo
• Para el caso del domo:{Fva} es cond. indep. de {Fv, Fe, Nd} dado {Fb}• Esto es:
P(Fva | Fv, Fe, Nd, Fb)= P(Fva | Fb)• Esto se representa gráficamente por el nodo Fb
separando al nodo Fva del resto de las variables.
![Page 76: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/76.jpg)
© E. Sucar, PGM: 1 Introducción 76
![Page 77: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/77.jpg)
© E. Sucar, PGM: 1 Introducción 77
Independencias condicionales• En una RB todas la relaciones de independencia condicional
representadas en el grafo corresponden a relaciones deindependencia en la distribución de probabilidad.
• Dichas independencias simplifican la representación delconocimiento (menos parámetros) y el razonamiento(propagación de las probabilidades).
![Page 78: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/78.jpg)
© E. Sucar, PGM: 1 Introducción 78
Representación Gráfica
• Una red bayesiana representa en formagráfica las dependencias e independenciasentre variables aleatorias, en particular lasindependencias condicionales
• Independencia en la distribución– P(X | Y,Z) = P(X | Z)
• Independencia en el grafo– X “separada” de Y por Z
![Page 79: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/79.jpg)
© E. Sucar, PGM: 1 Introducción 79
Representación Gráfica
Notación:• Independencia en la distribución
– I(X,Z,Y)• Independencia en el grafo
– < X | Z | Y >
X Z Y
![Page 80: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/80.jpg)
© E. Sucar, PGM: 1 Introducción 80
Separación “D”
• El conjunto de variables A esindependiente del conjunto B dado elconjunto C, si no existe trayectoria entreA y B en que
1. Todos los nodos convergentes están o tienendescendientes en C
2. Todos los demás nodos están fuera de C
![Page 81: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/81.jpg)
© E. Sucar, PGM: 1 Introducción 81
Separación “D”• Tres casos básicos
– Arcos divergentes– Arcos en secuencia– Arcos convergentes
![Page 82: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/82.jpg)
© E. Sucar, PGM: 1 Introducción 82
Separación “D” – casos básicos• caso 1: Secuencia:
X Z Y
• caso 2: Divergentes:
• caso 3: Convergentes:
X Z Y
X Z Y
![Page 83: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/83.jpg)
© E. Sucar, PGM: 1 Introducción 83
Ejemplos Separación-D
A
DC
F G
B
E ¿I(A,CD,F)?¿I(A,CD,B)?¿I(BD,A,C)?¿I(A,G,B)?¿I(A,D,G)?¿I(C,BEG,D)?
![Page 84: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/84.jpg)
© E. Sucar, PGM: 1 Introducción 84
Correspondencia Grafo-Modelo
• Dada una distribución de probabilidad omodelo (M) y una representación gráfica dedependencias o grafo (G) debe existir unacorrespondencia entre las independenciasrepresentados en ambos
• Tres tipos básicos - mapas
![Page 85: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/85.jpg)
© E. Sucar, PGM: 1 Introducción 85
Correspondencia Grafo-Modelo• Mapa-D: las variables independientes están separadas en
el grafo• Mapa-I: las variables separadas en el grafo son
independientes• Mapa perfecto: mapa-I & mapa-D
• No es siempre posible tener un mapa perfecto (haydistribuciones con relaciones de independencia que no sepueden representar como un GAD)
![Page 86: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/86.jpg)
© E. Sucar, PGM: 1 Introducción 86
Correspondencia Grafo-Modelo
• Mapa-I mínimo: las variables separadas enel grafo son independientes y al quitarcualquier arco se destruye esta condición
• Una red bayesiana es un grafo acíclicodirigido (GAD) que corresponde a un mapa-I mínimo de una distribución deprobabilidad P
![Page 87: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/87.jpg)
© E. Sucar, PGM: 1 Introducción 87
Especificación Estructural
• En una RB, cualquier nodo X esindependiente de todos los nodos que noson sus descendientes dados sus nodospadres Pa(X) – “contorno de X”
• La estructura de una RB se especificaindicando el contorno (padres) de cadavariable
![Page 88: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/88.jpg)
© E. Sucar, PGM: 1 Introducción 88
Especificación Estructural
A
DC
F G
B
E
Pa(A) = 0Pa(B) = 0Pa(C) = APa(D) = A, BPa(E) = BPa(F) = C, DPa(G) = D
![Page 89: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/89.jpg)
© E. Sucar, PGM: 1 Introducción 89
Cobija de Markov
• La “cobija de Markov” de un nodo es elconjunto de nodos que lo hacenindependiente del resto de la red
• Para una RB la cobija de Markov estáformada por:– Nodos padre– Nodos hijo– Otros padres de los hijos
![Page 90: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/90.jpg)
© E. Sucar, PGM: 1 Introducción 90
Cobija de Markov
A
DC
F G
B
E
CM (D) ?
![Page 91: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/91.jpg)
© E. Sucar, PGM: 1 Introducción 91
Parámetros
• Complementan la definición de una redbayesiana las probabilidades condicionalesde cada variable dados sus padres.
– Nodos raíz: vector de probabilidadesmarginales
– Otros nodos: matriz de probabilidadescondicionales dados sus padres
![Page 92: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/92.jpg)
© E. Sucar, PGM: 1 Introducción 92
P(C)
P(T|C) P(G)
P(R|T) P(F|T,G)
Comida
GripeTifoidea
Fiebre DolorReaccionesP(D|T,G)
Ejemplo
![Page 93: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/93.jpg)
© E. Sucar, PGM: 1 Introducción 93
P(C)
P(T|C) P(G)
P(R|T) P(F|T,G)
Comida
GripeTifoidea
Fiebre DolorReaccionesP(D|T,G)
Ejemplo 0.80.2SalIns
![Page 94: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/94.jpg)
© E. Sucar, PGM: 1 Introducción 94
P(C)
P(T|C) P(G)
P(R|T) P(F|T,G)
Comida
GripeTifoidea
Fiebre DolorReaccionesP(D|T,G)
0.80.2SalIns
.9.3No
.1.7SiSalIns
![Page 95: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/95.jpg)
© E. Sucar, PGM: 1 Introducción 95
P(C)
P(T|C) P(G)
P(R|T)
P(F|T,G)
Comida
GripeTifoidea
Fiebre DolorReacciones
P(D|T,G)
0.80.2SalIns
.9.3No
.1.7SiSalIns
0.90.50.40.2~F0.10.50.60.8FNo,NoNo,SiSi,NoSi, Si
![Page 96: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/96.jpg)
© E. Sucar, PGM: 1 Introducción 96
Especificación Paramétrica
• Dado que los contornos (padres) de cada nodo especificanla estructura, mediante las probabilidades condicionales dedichos nodos podemos especificar también lasprobabilidades requeridas
• Aplicando la regla de la cadena y las independenciascondicionales, se puede verificar que con dichasprobabilidades se puede calcular la probabilidad conjunta
![Page 97: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/97.jpg)
© E. Sucar, PGM: 1 Introducción 97
Especificación ParamétricaA
DC
F G
B
E
P(A,B,C,D,E,F,G)= P(G|F,E,D,C,B,A) P(F|E,D,C,B,A) P(E|D,C,B,A) P(D|C,B,A) P(C|B,A) P(B|A) P(A)= P(G|D) P(F|D,C) P(E|B) P(D|B,A) P(C|A) P(B) P(A)
![Page 98: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/98.jpg)
© E. Sucar, PGM: 1 Introducción 98
Especificación Paramétrica
• En general, la probabilidad conjunta seespecifica por el producto de lasprobabilidades de cada variable dados suspadres:
P(X1,X2, ..., Xn) = Π P(Xi | Pa(Xi))
![Page 99: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/99.jpg)
© E. Sucar, PGM: 1 Introducción 99
Inferencia probabilística
• En RB, la inferencia probabilística consiste en: “dadas ciertas variables conocidas (evidencia), calcular la
probabilidad posterior de las demás variables(desconocidas)”
• Es decir, calcular: P(Xi | E), donde:– E es un subconjunto de variables de la RB (posiblemente vació)– Xi es cualquier variable en la RB, no en E
![Page 100: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/100.jpg)
© E. Sucar, PGM: 1 Introducción 100
Inferencia bayesiana
C
H
E
P(H|C)
P(E|H)
Causal:C H
Evidencial:E H
Mixta:C, E H
![Page 101: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/101.jpg)
© E. Sucar, PGM: 1 Introducción 101
Tipos de Técnicas
• Calcular probabilidades posteriores:– Una variable, cualquier estructura: algoritmo
de eliminación (variable elimination)– Todas las variable, estructuras sencillamente
conectadas (árboles, poliárboles): propagación– Todas las variables, cualquier estructura:
• Agrupamiento (junction tree)• Simulación estocástica• Condicionamiento
![Page 102: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/102.jpg)
© E. Sucar, PGM: 1 Introducción 102
Tipos de Técnicas
• Obtener variable(s) de mayor probabilidaddada cierta evidencia – abducción:– Abducción total– Abducción parcial
![Page 103: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/103.jpg)
© E. Sucar, PGM: 1 Introducción 103
Tipos de estructuras• Sencillamente
conectadas– Árboles
– Poliárboles
• Multiconectadas
![Page 104: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/104.jpg)
© E. Sucar, PGM: 1 Introducción 104
Cada nodo corresponde a una variablediscreta, B (B 1, B 2,…, B m) con surespectiva matriz de probabilidadcondicional, P(B|A)=P(Bj| Ai)
Propagación en Árboles
![Page 105: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/105.jpg)
© E. Sucar, PGM: 1 Introducción 105
Propagación en Árboles
A
D
C
F G
B
E
H
I
![Page 106: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/106.jpg)
© E. Sucar, PGM: 1 Introducción 106
Dada cierta evidencia E -representada por lainstanciación de ciertas variables- laprobabilidad posterior de cualquier variableB, por el teorema de Bayes:
P( Bi | E)=P( Bi ) P(E | Bi) / P( E )
B
![Page 107: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/107.jpg)
© E. Sucar, PGM: 1 Introducción 107
Evidencia
A
D
C
F G
B
E
H
I
E = {I,F,E}
![Page 108: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/108.jpg)
© E. Sucar, PGM: 1 Introducción 108
Ya que la estructura de la red es un árbol, elNodo B la separa en dos subárboles, por loque podemos dividir la evidencia en dosgrupos:
E-: Datos en el árbol que cuya raíz es B
E+: Datos en el resto del árbol
Evidencia
![Page 109: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/109.jpg)
© E. Sucar, PGM: 1 Introducción 109
Evidencia
A
D
C
F G
B
E
H
I
E+
E-
![Page 110: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/110.jpg)
© E. Sucar, PGM: 1 Introducción 110
Entonces:
P( Bi | E ) = P ( Bi ) P ( E-,E+ | Bi ) / P(E)
Pero dado que ambos son independientes yaplicando nuevamente Bayes:
P( Bi | E ) = a P ( Bi | E+ ) P(E- | Bi )
Donde a es una constante de normalización
![Page 111: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/111.jpg)
© E. Sucar, PGM: 1 Introducción 111
Si definimos los siguientes términos:
Definiciones:
l (Bi) = P ( E- | Bi)
Entonces:
p (Bi) = P (Bi | E+ )
P(Bi | E ) = a p (B i) l (B i)
![Page 112: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/112.jpg)
© E. Sucar, PGM: 1 Introducción 112
Desarrollo
• En base a la ecuación anterior, se puedeintegrar un algoritmo distribuido paraobtener la probabilidad de un nodo dadacierta evidencia
• Para ello se descompone el cálculo de cadaparte:– Evidencia de los hijos (λ)– Evidencia de los demás nodos (π)
![Page 113: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/113.jpg)
© E. Sucar, PGM: 1 Introducción 113
Evidencia de los hijos (l )
• Dado que los hijos son condicionalmenteindependientes dado el padre:
λ (Bi) = P ( E- | Bi) = Πk P ( Ek- | Bi)
• Donde Ek- corresponde a la evidencia del
subárbol del hijo k
![Page 114: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/114.jpg)
© E. Sucar, PGM: 1 Introducción 114
Evidenciahijos
A
D
C
F G
B
E
H
I
E-(D) E-(E)
J
![Page 115: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/115.jpg)
© E. Sucar, PGM: 1 Introducción 115
Evidencia de los hijos (λ)
• Condicionando respecto a los posiblesvalores de los hijos de B:
λ (Bi)= Πk [ Σj P ( Ek- | Bi, Sj
k) P(Sjk | Bi) ]
• Donde Sk es el hijo k de B, y la sumatoria essobre los valores de dicho nodo (teorema deprobabilidad total)
![Page 116: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/116.jpg)
© E. Sucar, PGM: 1 Introducción 116
Evidencia de los hijos (λ)
• Dado que B es condicionalmenteindependiente de la evidencia dados sus hijos:
λ (Bi) = Πk [ Σj P ( Ek- | Sj
k) P(Sjk | Bi) ]
• Substituyendo la definción de λ:
λ (Bi)= Πk [ Σj P(Sjk | Bi) λ (Sj
k)]
![Page 117: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/117.jpg)
© E. Sucar, PGM: 1 Introducción 117
Evidenciahijos
A
D
C
F G
B
E
H
I
λ(E)λ(D)
![Page 118: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/118.jpg)
© E. Sucar, PGM: 1 Introducción 118
Evidencia de los hijos (l )
• Recordando que λ es un vector (un valor porcada posible valor de B), lo podemos ver enforma matricial:
λ = λ P (S | B)
![Page 119: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/119.jpg)
© E. Sucar, PGM: 1 Introducción 119
Evidencia de los demás nodos (π)
• Condicionando sobre los diferentes valoresdel nodo padre (A):
π (Bi) = P (Bi | E+ ) = Σj P (Bi | E+ , Aj) P(Aj | E+ )
• Donde Aj corresponde a los diferentes valoresdel nodo padre de B
![Page 120: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/120.jpg)
© E. Sucar, PGM: 1 Introducción 120
Evidenciapadre
A
D
C
F G
B
E
H
IE+
![Page 121: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/121.jpg)
© E. Sucar, PGM: 1 Introducción 121
Evidencia de los demás nodos (p)• Dado que B es independiente de la evidencia “arriba” de A,
dado A:
Π (Bi) = Σj P (Bi | Aj) P(Aj | E+ )
• La P(Aj | E+ ) corresponde a la P posterior de A dada toda laevidencia excepto B y sus hijos, por lo que se puede escribircomo:
P(Aj | E+ ) = α π (A i) Πk¹ B λk (A i)
![Page 122: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/122.jpg)
© E. Sucar, PGM: 1 Introducción 122
Evidenciapadre
A
D
C
F G
B
E
H
I
λ(C)
λ(B)
π(A)
![Page 123: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/123.jpg)
© E. Sucar, PGM: 1 Introducción 123
Evidencia de los demás nodos (π)
• Substituyendo P(Aj | E+ ) en la ecuación de π :
π (Bi) = Σj P (Bi | Aj) [ α π (A i) Πk¹ B λk (A i) ]
• De forma que se obtiene combinando la π dedel nodo padre con la λ de los demás hijos
![Page 124: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/124.jpg)
© E. Sucar, PGM: 1 Introducción 124
Evidencia de los demás nodos (p)
• Dado que también π es un vector, lo podemos ver en formamatricial (donde PA es el producto de la evidencia de padre yotros hijos):
π = P (B | A) PA
![Page 125: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/125.jpg)
© E. Sucar, PGM: 1 Introducción 125
Algoritmo
• Mediante estas ecuaciones se integra unalgoritmo de propagación deprobabilidades en árboles.
• Cada nodo guarda los valores de losvectores π y λ, así como su matriz deprobabilidad condicional (CPT), P.
• La propagación se hace por un mecanismode paso de mensajes, en donde cada nodoenvía los mensajes correspondientes a supadre e hijos
![Page 126: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/126.jpg)
© E. Sucar, PGM: 1 Introducción 126
Mensaje al padre (hacia arriba) –nodo B a su padre A:
Mensaje a los hijos (hacia abajo) -nodo B a su hijo Sk :
![Page 127: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/127.jpg)
© E. Sucar, PGM: 1 Introducción 127
Algoritmo
• Al instanciarse ciertos nodos, éstos envíanmensajes a sus padres e hijos, y se propagan hastaa llegar a la raíz u hojas, o hasta encontrar unnodo instanciado.
• Así que la propagación se hace en un solo paso,en un tiempo proporcional al diámetro de la red.
![Page 128: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/128.jpg)
© E. Sucar, PGM: 1 Introducción 128
Propagaciónλ
A
D
C
F G
B
E
H
I
λI (H)
λE(B)
λG(D)λF(D)
λC(A)
λD(B)
λB(A)
λA(H)
![Page 129: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/129.jpg)
© E. Sucar, PGM: 1 Introducción 129
Propagaciónπ
A
D
C
F G
B
E
H
I
πH(I)
πB(E)
πD(G)πD(F)
πA(C)
πB(D)
πA(B)
πH(A)
![Page 130: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/130.jpg)
© E. Sucar, PGM: 1 Introducción 130
Condiciones Iniciales• Nodos hoja no conocidos:
λ (Bi) = [1,1, …]• Nodos asignados (conocidos):
λ (Bi) = [0,0, ..1, 0, …, 0] (1 para valor asignado)π (Bi) = [0,0, ..1, 0, …, 0] (1 para valor asignado)
• Nodo raíz no conocido:π (A) = P(A), (probabilidad marginal inicial)
![Page 131: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/131.jpg)
© E. Sucar, PGM: 1 Introducción 131
Ejemplo
Enf.
Fiebre Dolor
Comida
P(F|E)0.9 0.50.1 0.5
P(D|E)0.7 0.40.3 0.6
P(E|C)0.9 0.70.1 0.3
P(C)0.8 0.2
![Page 132: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/132.jpg)
© E. Sucar, PGM: 1 Introducción 132
Ejemplo
Enf.
Fiebre Dolor
Comida
F=siλ=[1,0] λ=[1,1]
![Page 133: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/133.jpg)
© E. Sucar, PGM: 1 Introducción 133
Ejemplo
Enf.
Fiebre Dolor
ComidaλF= [1,0] * [.9 .5 | .1 .5] = [.9 .5]
λD= [1,1] * [.7 .4 | .3 .6] = [1 1]
P(D|E)0.7 0.40.3 0.6
P(F|E)0.9 0.50.1 0.5
![Page 134: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/134.jpg)
© E. Sucar, PGM: 1 Introducción 134
Ejemplo
Enf.
Fiebre Dolor
Comida
λ(E) = [.9 .5] * [1 1] = [.9 .5]
P(D|E)0.7 0.40.3 0.6
P(F|E)0.9 0.50.1 0.5
λ(C) = [.9 .5] * [.9 .7| .1 .3] = [.86 .78]
P(E|C)0.9 0.70.1 0.3
![Page 135: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/135.jpg)
© E. Sucar, PGM: 1 Introducción 135
Ejemplo
Enf.
Fiebre Dolor
Comidaπ(E) = [.8 .2] * [.9 .7| .1 .3] = [.86 .14]
P(D|E)0.7 0.40.3 0.6
P(F|E)0.9 0.50.1 0.5
π(C) = [.8 .2]
P(E|C)0.9 0.70.1 0.3
![Page 136: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/136.jpg)
© E. Sucar, PGM: 1 Introducción 136
Ejemplo
Enf.
Fiebre Dolor
Comida
π(E) = [.86 .14]
P(D|E)0.7 0.40.3 0.6
π(C) = [.8 .2]
π(D) = [.86 .14] * [.9 .5] [.7 .4| .3 .6] = [.5698 .2742]
![Page 137: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/137.jpg)
© E. Sucar, PGM: 1 Introducción 137
Ejemplo
Enf.
Fiebre Dolor
Comidaπ(E) = [.86 .14]π(C) = [.8 .2]
π(D) = [.57 .27]λ(D)=[1,1]
λ(E) = [.9 .5]λ(C) = [.86 .78]
P(C)=α[.688 .156]P(C)= [.815 .185]
P(E)=α[.774 .070]P(E)= [.917 .083]
P(D)=α[.57 .27]P(D)= [.67 .33]
![Page 138: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/138.jpg)
© E. Sucar, PGM: 1 Introducción 138
Demo 1
• Ejemplo en HUGIN
![Page 139: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/139.jpg)
© E. Sucar, PGM: 1 Introducción 139
Propagación en poliárboles
• Un poliárbol es una red conectada enforma sencilla, pero en la que un nodopuede tener varios padres:
P(B | A1, A2, …, An)
![Page 140: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/140.jpg)
© E. Sucar, PGM: 1 Introducción 140
Propagación en Poliárboles
A
D
C
F G
B
E
H
I
![Page 141: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/141.jpg)
© E. Sucar, PGM: 1 Introducción 141
Algoritmo
• El método es muy similar al de árboles, conalgunas consideraciones adicionales:– Considerar la probabilidad condicional del
nodo dados todos sus padres para el cálculo deπ y λ
– Enviar los mensajes λ a cada uno de los padresde un nodo
![Page 142: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/142.jpg)
© E. Sucar, PGM: 1 Introducción 142
Propagación en redesmulticonectadas
• Una red multiconectada es un grafo noconectado en forma sencilla, es decir, en elque hay múltiples trayectorias entre nodos.
• Para este tipo de redes existen varios tiposde técnicas de inferencia:– Propagación “Loopy”– Condicionamiento– Simulación estocástica– Agrupamiento
![Page 143: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/143.jpg)
© E. Sucar, PGM: 1 Introducción 143
Agrupamiento
• El método de agrupamiento consiste entransformar la estructura de la red paraobtener un árbol, mediante agrupación denodos usando la teoría de grafos.
• La propagación se realiza sobre el árbol demacro-nodos obtenido, donde cada macro-nodo corresponde a un clique o unión de laRB original (junction tree)
![Page 144: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/144.jpg)
© E. Sucar, PGM: 1 Introducción 144
Agrupamiento
• Transformación:– Eliminar direccionalidad de los arcos– Ordenamiento de los nodos por máxima
cardinalidad– Moralizar el grafo (arco entre nodos con hijos
comunes)– Triangular el grafo– Obtener los cliques y ordenar– Construir árbol de cliques
![Page 145: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/145.jpg)
© E. Sucar, PGM: 1 Introducción 145
Ejemplo
A
CB
D E
A
CB
D E
![Page 146: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/146.jpg)
© E. Sucar, PGM: 1 Introducción 146
Ordenamiento de Cliques
A
CB
D E
C1
C2
C3
![Page 147: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/147.jpg)
© E. Sucar, PGM: 1 Introducción 147
Árbol de Cliques
C1
C2
C3
A,B,C
B,C,D
C,E
![Page 148: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/148.jpg)
© E. Sucar, PGM: 1 Introducción 148
Propagación
• La propagación es mediante el envío de mensajesen el árbol de cliques (en forma similar a árboles)
• Inicialmente se calcula la probabilidad conjunta(potencial) de cada clique, y la condicional dadoel padre
• Dada cierta evidencia se recalculan lasprobabilidades de cada clique
• La probabilidad individual de cada variable seobtiene de la del clique por marginalización
![Page 149: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/149.jpg)
© E. Sucar, PGM: 1 Introducción 149
Procedimiento – preprocesamiento:
1. Se obtienen los conjuntos de nodos decada clique – Ci
2. Se obtienen los conjuntos de nodoscomunes con cliques previos – Si
3. Se obtienen los conjuntos de nodos queestán en Ci pero no en Si: Ri = Ci – Si
4. Se calcula la probabilidad (potencial) decada clique – ψ(clqi) = Π P(nodos)
![Page 150: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/150.jpg)
© E. Sucar, PGM: 1 Introducción 150
Ejemplo • C:– A,B,C– B,C,D– C,E
• S:– Æ– B,C– C
• R:– A,B,C– D– E
• Ψ:– P(A) P(B|A) P(C|A)– P(D|B,C)– P(E|C)
A
CB
D E
C1
C2
C3
A,B,C
B,C,D
C,E
![Page 151: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/151.jpg)
© E. Sucar, PGM: 1 Introducción 151
Propagación sin evidencia:
• Cálculo de λ :
λ(Ci) = ΣR Y(Ci)
• Actualización:Y(Ci)’ = Y(Ci) / λ(Ci)
• Enviar λ a padre
![Page 152: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/152.jpg)
© E. Sucar, PGM: 1 Introducción 152
Propagación sin evidencia:
• Cálculo de π . Para todos los hijos “i” delclique “j”:
π(Ci) = ΣCj - Si P’(Ci)• Enviar π a cada hijo
![Page 153: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/153.jpg)
© E. Sucar, PGM: 1 Introducción 153
Propagación sin evidencia:
• Propagación de λ :– Calcular λ para los clique hoja– Actualizar potencial del clique “j” al recibir
cada λ de los hijos “i”:Ψ(Cj)’ = λ(Ci) Ψ(Cj)
– Al recibir todas la l propagar al padre:– Al llegar al nodo raíz obtener P’:
P’(Cj) = Ψ(Cj)’
![Page 154: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/154.jpg)
© E. Sucar, PGM: 1 Introducción 154
Propagación sin evidencia:
• Propagación de π :– Obtener π del clique raíz para cada hijo– Enviar π a cada hijo– Actualizar P’(Ci):
P’(Ci) = π(Ci) Ψ’(Ci)– Enviar π a cada hijo hasta llegar a los nodos
hoja
![Page 155: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/155.jpg)
© E. Sucar, PGM: 1 Introducción 155
Ejemplo – propagación λ
C1
C2
C3
Ψ(C1)’, λ(C1), Ψ(C1)’
λ(C3)
λ(C3), Ψ(C3)’
Ψ(C2)’, λ(C2), Ψ(C2)’
λ(C3)
![Page 156: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/156.jpg)
© E. Sucar, PGM: 1 Introducción 156
Ejemplo – propagación π
C1
C2
C3
P’(C1), π1(C2)
π2(C3)
P’(C3)
P’(C2), π2(C3)
π1(C2)
![Page 157: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/157.jpg)
© E. Sucar, PGM: 1 Introducción 157
Propagación con evidencia:• Cuando hay nodos conocidos (Evidencia – E), se actualizan
los potenciales, R y S de cada clique en función de laevidencia:– CLQi = CLQi – {E}– Si = Si - {E}– Ri = Ri - {E}
• Se obtienen los potenciales para cliques con nodos evidenciade acuerdo a los valores de dichos nodos:– Ψ(Ci)’ = Ψ(Ci)’ E=evidencia
• Después se sigue el mismo proceso de propagación que sinevidencia
![Page 158: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/158.jpg)
© E. Sucar, PGM: 1 Introducción 158
Ejemplo:
• Supongamos que se conocen D y E:– C: {A,B,C}, {B,C}, {C}– S: {0}, {B,C}, {C}– R: {A,B,C} { Æ }, { Æ }
• Potenciales:– Ψ({A,B,C})– Ψ({B,C}) D=di– Ψ({C}) E=ei
![Page 159: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/159.jpg)
© E. Sucar, PGM: 1 Introducción 159
Probabilidades de las variables:• Se obtienen a partir de las probabilidades de los cliques
por marginalización:
P(X) = Σ Y,Z,... P’(clq)• En el ejemplo:
P(A) = Σ B,C P’(clq-1)
P(B) = Σ A,C P’(clq-1)
P(C) = Σ A,B P’(clq-1)
P(D) = Σ B,C P’(clq-2)
P(E) = Σ C P’(clq-3)
![Page 160: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/160.jpg)
© E. Sucar, PGM: 1 Introducción 160
Complejidad
• En el peor caso, la propagación en redes bayesianas es unproblema NP-duro
• En la práctica, en muchas aplicaciones se tienen redes nomuy densamente conectadas y la propagación es eficienteaún para redes muy grandes (función del clique mayor)
• Para redes muy complejas (muchas conexiones), la mejoralternativa son técnicas de simulación estocástica otécnicas aproximadas
![Page 161: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/161.jpg)
© E. Sucar, PGM: 1 Introducción 161
Referencias
• Pearl 88 – Cap. 4,5• Neapolitan 90 – Cap. 6,7,8• Jensen 01 – Cap. 5• Darwiche 09 – Cap. 4-8
![Page 162: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/162.jpg)
I.5:Aprendizaje de Redes Bayesianas
“Preferiría descubrir una ley causalque ser rey de Persia” [Democritus]
![Page 163: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/163.jpg)
© E. Sucar, PGM: 1 Introducción 163
Aprendizaje
El aprendizaje inductivo consiste en obtener conocimiento a partir de datos.
En redes bayesianas se divide en 2 aspectos:• Obtener la estructura de la red –
aprendizaje estructural• Obtener las probabilidades asociadas –
aprendizaje paramétrico
![Page 164: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/164.jpg)
© E. Sucar, PGM: 1 Introducción 164
Aprendizaje Paramétrico
• Datos completos - se estiman lasprobabilidades a partir de frecuencias
P(A) ~ Na / NtP(B|A1, ..., An) ~ N a1, ..., an, b / Na1, ..., an
![Page 165: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/165.jpg)
© E. Sucar, PGM: 1 Introducción 165
Ejemplo - ¿Cuándo jugar golf?
Ambiente Temp. Humedad Viento Jugarsoleado alta alta no Nsoleado alta alta si Nnublado alta alta no Plluvia media alta no Plluvia baja normal no Plluvia baja normal si Nnublado baja normal si Psoleado media alta no Nsoleado baja normal no Plluvia media normal no Psoleado media normal si Pnublado media alta si Pnublado alta normal no Plluvia media alta si N
![Page 166: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/166.jpg)
© E. Sucar, PGM: 1 Introducción 166
AH
J
V
T
Ejemplo – estructura
![Page 167: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/167.jpg)
© E. Sucar, PGM: 1 Introducción 167
Ejemplo
• P(J)– P(N) = 5/14– P(P) = 9/14
• P(V|J)– P(si|N)=3/5, P(si|P)=3/9– P(no|N)=2/5, P(no|P)=6/9
• Etc.
![Page 168: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/168.jpg)
© E. Sucar, PGM: 1 Introducción 168
Suavizado
• Cuando se tienen pocos datos (o muchasvariables-valores) se pueden tenerprobabilidades igual a cero, lo que ocasionaproblema
• Para ello se pueden “suavizar” lasestimaciones de las probabilidades
• Existen varios métodos de suavizado, elmás sencillo y común el de Laplace
![Page 169: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/169.jpg)
© E. Sucar, PGM: 1 Introducción 169
Suavizado
• El suavizado de Laplace consiste en inicializar todas lasprobabilidades en forma uniforme, y despuésincrementarlas con los datos
• Ejemplo:– P(A), A={a1, a2, a3)– Inicial: P(a1) = 1/3, P(a2) = 1/3, P(a3) = 1/3– Dato A=a2 P(a1) = 1/4, P(a2) = 2/4, P(a3) = 1/4– Dato A=a3 P(a1) = 1/5, P(a2) = 2/5, P(a3) = 2/5– Dato A=a3 P(a1) = 1/6, P(a2) = 2/2, P(a3) = 3/6
![Page 170: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/170.jpg)
© E. Sucar, PGM: 1 Introducción 170
Información incompleta
• En la práctica, en muchas ocasiones losdatos no están completos
• Dos tipos básicos de informaciónincompleta:– Faltan algunos valores de una de las variables
en algunos casos – datos incompletos– Faltan todos los valores de una variable –
nodos ocultos
![Page 171: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/171.jpg)
© E. Sucar, PGM: 1 Introducción 171
Información incompleta
Ambiente Temp. Humedad Viento Jugarsoleado xxx alta -- Nsoleado alta alta -- Nnublado alta alta -- Plluvia media alta -- Plluvia baja normal -- Plluvia baja normal -- Nnublado baja normal -- Psoleado media alta -- Nsoleado xxx normal -- Plluvia media normal -- Psoleado media normal -- Pnublado media alta -- Pnublado alta normal -- Plluvia media alta -- N
![Page 172: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/172.jpg)
© E. Sucar, PGM: 1 Introducción 172
Datos incompletos
Existen varias alternativas:1. Considerar un nuevo valor “desconocido”2. Tomar el valor más probable (promedio) de la variable3. Considerar el valor más probable en base a las otras
variables4. Considerar la probabilidad de los diferentes valores en
base a las otras variables
![Page 173: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/173.jpg)
© E. Sucar, PGM: 1 Introducción 173
Datos incompletos
Valor más probable:1. Asignar todas las variables observables.
2. Propagar su efecto y obtener las probabilidadesposteriores de las no observables.
3. Para las variables no observables, asumir el valor conprobabilidad mayor como observado.
4. Actualizar las probabilidades previas y condicionales deacuerdo a las fórmulas anteriores.
5. Repetir 1 a 4 para cada observación.
![Page 174: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/174.jpg)
© E. Sucar, PGM: 1 Introducción 174
Datos incompletos
Ambiente Temp. Humedad Viento Jugarsoleado xxx alta -- Nsoleado alta alta -- Nnublado alta alta -- Plluvia media alta -- Plluvia baja normal -- Plluvia baja normal -- Nnublado baja normal -- Psoleado media alta -- Nsoleado xxx normal -- Plluvia media normal -- Psoleado media normal -- Pnublado media alta -- Pnublado alta normal -- Plluvia media alta -- N
P(T|sol,alta,N)
P(T|sol,nor,P)
![Page 175: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/175.jpg)
© E. Sucar, PGM: 1 Introducción 175
Datos incompletos
Ambiente Temp. Humedad Viento Jugarsoleado media alta -- Nsoleado alta alta -- Nnublado alta alta -- Plluvia media alta -- Plluvia baja normal -- Plluvia baja normal -- Nnublado baja normal -- Psoleado media alta -- Nsoleado media normal -- Plluvia media normal -- Psoleado media normal -- Pnublado media alta -- Pnublado alta normal -- Plluvia media alta -- N
P(T|sol,alta,N)
P(T|sol,nor,P)
![Page 176: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/176.jpg)
© E. Sucar, PGM: 1 Introducción 176
Nodos ocultos – algoritmo EM• El algoritmo EM es un método estadístico muy
utilizado para estimar probabilidades cuando hayvariables no observables (un caso especial es elalgoritmo de Baum-Welch en HMM)
• Consiste básicamente de 2 pasos que se repiten enforma iterativa:
1. Paso E: se estiman los datos faltantes en base a losparámetros (P) actuales
2. Paso M: se estiman las probabilidades (parámetros)considerando los datos estimados
![Page 177: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/177.jpg)
© E. Sucar, PGM: 1 Introducción 177
EM para RB con nodos ocultos1. Iniciar los parámetros desconocidos (CPTs) con
valores aleatorios (o estimaciones de expertos)2. Utilizar los datos conocidos con los parámetros
actuales para estimar los valores de lavariable(s) oculta(s)
3. Utilizar los valores estimados para completar latabla de datos
4. Re-estimar los parámetros con los nuevos datos5. Repetir 24 hasta que no haya cambios
significativos en las probabilidades
![Page 178: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/178.jpg)
© E. Sucar, PGM: 1 Introducción 178
Ejemplo
• V es un nodo oculto• Se seleccionan valores aleatorios para P(V|J)• Se calcula la probabilidad de V para cada caso, dados los
valores de A, T, H, J• Cada caso se “pesa” de acuerdo a las probabilidades
posteriores de V (un caso puede representar “n” datos)• Se recalculan los parámetros ( P(V|J) ) en base a los casos
obtenidos• Se repite el proceso hasta que converja
A T
J
H V
![Page 179: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/179.jpg)
© E. Sucar, PGM: 1 Introducción 179
EM: inicio
Ambiente Temp. Humedad Viento Jugarsoleado media alta -- Nsoleado alta alta -- Nnublado alta alta -- Plluvia media alta -- Plluvia baja normal -- Plluvia baja normal -- Nnublado baja normal -- Psoleado media alta -- Nsoleado media normal -- Plluvia media normal -- Psoleado media normal -- Pnublado media alta -- Pnublado alta normal -- Plluvia media alta -- N
“Adivinar”P(V | J):
0.50.5si
0.50.5noPNV\J
![Page 180: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/180.jpg)
© E. Sucar, PGM: 1 Introducción 180
EM: paso E
Ambiente Temp. Humedad Viento Jugarsoleado media alta no Nsoleado alta alta no Nnublado alta alta no Plluvia media alta no Plluvia baja normal si Plluvia baja normal si Nnublado baja normal si Psoleado media alta no Nsoleado media normal no Plluvia media normal no Psoleado media normal si Pnublado media alta si Pnublado alta normal si Plluvia media alta si N
Estimar valores de V en base aP(V | J) y los datos
![Page 181: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/181.jpg)
© E. Sucar, PGM: 1 Introducción 181
EM: paso M
Ambiente Temp. Humedad Viento Jugarsoleado media alta no Nsoleado alta alta no Nnublado alta alta no Plluvia media alta no Plluvia baja normal si Plluvia baja normal si Nnublado baja normal si Psoleado media alta no Nsoleado media normal no Plluvia media normal no Psoleado media normal si Pnublado media alta si Pnublado alta normal si Plluvia media alta si N
Re-estimar P(V | J) con losNuevos datos:
0.660.4si
0.440.6noPNV\J
![Page 182: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/182.jpg)
© E. Sucar, PGM: 1 Introducción 182
EM
• Limitaciones:– Puede caer en máximos locales (depende del
valor inicial)– Complejidad computacional
![Page 183: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/183.jpg)
© E. Sucar, PGM: 1 Introducción 183
Aprendizaje Estructural
Diversos métodos:• Aprendizaje de árboles• Aprendizaje de poliárboles• Aprendizaje de redes multiconectadas
– Métodos basados en medidas– Métodos basados en relaciones de dependencia
![Page 184: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/184.jpg)
© E. Sucar, PGM: 1 Introducción 184
Aprendizaje de árboles• Algoritmo desarrollado por Chow y Liu para
aproximar una distribución de probabilidad porun producto de probabilidades de segundoorden (árbol).
• La probabilidad conjunta de n variables sepuede representar como:
• donde Xj(i) es la causa o padre de Xi.
( ) ( )( )!=
=n
iijin XXPXXXP
121 |,...,,
![Page 185: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/185.jpg)
© E. Sucar, PGM: 1 Introducción 185
Aprendizaje de árboles• Se plantea el problema como uno de
optimización - obtener la estructura quemás se aproxime a la distribución "real".
• Medida de la diferencia de informaciónentre la distribución real (P) y laaproximada (P*):
• El objetivo es minimizar I.
( ) ( )!=x XP
XPXPPPI)()(log, *
*
![Page 186: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/186.jpg)
© E. Sucar, PGM: 1 Introducción 186
Aprendizaje de árboles• Se puede definir dicha diferencia en función de la
información mutua entre pares de variables, que se definecomo:
• Se puede demostrar (Chow 68) que la diferencia deinformación es una función del negativo de la suma de lasinformaciones mutuas (pesos) de todos los pares devariables que constituyen el árbol
• Encontrar el árbol más próximo equivale a encontrar elárbol con mayor peso.
( ) ( ) ( )( ) ( )!=
ji xx ji
jijiji XPXP
XXPXXPXXI
,
,log,,
![Page 187: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/187.jpg)
© E. Sucar, PGM: 1 Introducción 187
Aprendizaje de árboles - algoritmo1. Calcular la información mutua entre todos los pares de
variables (n(n - 1)/2).2. Ordenar las informaciones mutuas de mayor a menor.3. Seleccionar la rama de mayor valor como árbol inicial.4. Agregar la siguiente rama mientras no forme un ciclo, si es así,
desechar.5. Repetir (3-4) hasta que se cubran todas las variables (n -1
ramas).
• El algoritmo NO provee la dirección de los arcos, por lo queésta se puede asignar en forma arbitraria o utilizandosemántica externa (experto).
![Page 188: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/188.jpg)
© E. Sucar, PGM: 1 Introducción 188
Ejemplo (golf)• Informaciones mutuas ordenadasNo. Var 1 Var 2 I.M.
1 temp. ambiente .28562 juega ambiente .07433 juega humedad .04564 juega viento .00745 humedad ambiente .00606 viento temp. .00527 viento ambiente .00178 juega temp. .00039 humedad temp. 010 viento humedad 0
![Page 189: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/189.jpg)
© E. Sucar, PGM: 1 Introducción 189
Ejemplo (golf)
AH
J
V
T
![Page 190: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/190.jpg)
© E. Sucar, PGM: 1 Introducción 190
Aprendizaje de poliárboles• Parte del esqueleto (estructura sin direcciones)
obtenido con el algoritmo anterior• Determina la dirección de los arcos utilizando
pruebas de dependencia entre tripletas de variables.
• Dadas 3 variables, existen 3 casos posibles:• Arcos divergentes• Arcos secuenciales• Arcos convergentes
• Los primeros dos casos son indistinguibles, pero eltercero es diferente, ya que las dos variables "padre"son marginalmente independientes.
![Page 191: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/191.jpg)
© E. Sucar, PGM: 1 Introducción 191
Prueba de Tripletas
• Tripleta de variables:X – Z – Y
• Si X – Y son independientes dado Z, entonces pueden sersecuenciales o divergentes
X Z Y; X Z Y• Si X – Y no son independientes dado Z, entonces son
arcos convergentesX Z Y
![Page 192: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/192.jpg)
© E. Sucar, PGM: 1 Introducción 192
Aprendizaje de poliárboles - algoritmo1.1. Obtener esqueleto utilizando el algoritmo de Obtener esqueleto utilizando el algoritmo de Chow Chow y y LiuLiu
2. 2. Recorrer la red hasta encontrar una tripleta de nodos queRecorrer la red hasta encontrar una tripleta de nodos quesean convergentes (tercer caso) - nodo sean convergentes (tercer caso) - nodo multipadre-multipadre-
3. 3. A partir de un nodo A partir de un nodo multipadre multipadre determinar las direccionesdeterminar las direccionesde los arcos utilizando la prueba de tripletas hasta dondede los arcos utilizando la prueba de tripletas hasta dondesea posible (base causal).sea posible (base causal).
4. 4. Repetir 2-3 hasta que ya no se puedan descubrir másRepetir 2-3 hasta que ya no se puedan descubrir másdirecciones.direcciones.
5. 5. Si quedan arcos sin Si quedan arcos sin direccionardireccionar, utilizar semántica, utilizar semánticaexterna para obtener su dirección (o fijar direcciones).externa para obtener su dirección (o fijar direcciones).
![Page 193: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/193.jpg)
© E. Sucar, PGM: 1 Introducción 193
Ejemplo
AH
J
V
T
~I(H,J,V)I(H,J,A)I(J,A,T)
![Page 194: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/194.jpg)
© E. Sucar, PGM: 1 Introducción 194
Aprendizaje de redesmulticonectadas
Existen dos tipos de métodos para elaprendizaje genérico de redes bayesianas:
1. Métodos basados en medidas de ajuste ybúsqueda
2. Métodos basados en pruebas deindependencia
![Page 195: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/195.jpg)
© E. Sucar, PGM: 1 Introducción 195
Métodos basados en medidas
Se generan diferentes estructuras y se evalúanrespecto a los datos utilizando algunamedida
Dos aspectos principales:• Medida de “ajuste” de la estructura a los
datos• Búsqueda de la “mejor” estructura
![Page 196: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/196.jpg)
© E. Sucar, PGM: 1 Introducción 196
Medidas
• Evalúan que tan “buena” es una estructurarespecto a los datos
• Hay varias posibles medidas, las dos máscomunes son:– Medida bayesiana– Medida basada en el principio de longitud de
descripción mínima (MDL)
![Page 197: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/197.jpg)
© E. Sucar, PGM: 1 Introducción 197
MDL
• La “calidad” de la estructura se basa en elprincipio de “descripción de longitudmínima” (MDL):– Tamaño de la descripción de la red
(complejidad)– Tamaño de error de predicción de los datos por
la red (exactitud)• Se hace una búsqueda heurística de la
estructura en base al MDL
![Page 198: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/198.jpg)
© E. Sucar, PGM: 1 Introducción 198
MDL
Compromiso entre exactitud y complejidad-minimizar: long. de descripción del modelo +
descripción de lo datos dado el modelo
Ejemplo – ajustar un polinomio a un conjunto depuntos:
![Page 199: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/199.jpg)
© E. Sucar, PGM: 1 Introducción 199
MDL
Para redes bayesianas:
Complejidad:L= Σi [ ki log2n + d(Si - 1) ΠFi si]n-# de nodos, k-# padres por nodo, Si-# de valorespor variable, Fi-conj. de padres, d-# de bits
Exactitud: w(xi, Fxi) = Σ P(xi, Fxi) log2 [P(xi,Fxi)/P(xi)P(Fxi)] W = Σi w(xi, Fxi)
![Page 200: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/200.jpg)
© E. Sucar, PGM: 1 Introducción 200
Buscando la mejor estructura
• Búsqueda de ascenso de colinas (hillclimbing)
• Se inicia con una estructura simple (árbol)y se van agregando arcos hasta llegar a unmínimo local
“óptimo”
![Page 201: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/201.jpg)
© E. Sucar, PGM: 1 Introducción 201
Ejemplo - ¿Cuándo jugar golf?
Ambiente Temp. Humedad Viento Jugarsoleado alta alta no Nsoleado alta alta si Nnublado alta alta no Plluvia media alta no Plluvia baja normal no Plluvia baja normal si Nnublado baja normal si Psoleado media alta no Nsoleado baja normal no Plluvia media normal no Psoleado media normal si Pnublado media alta si Pnublado alta normal no Plluvia media alta si N
![Page 202: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/202.jpg)
© E. Sucar, PGM: 1 Introducción 202
AH
J
V
T
Ejemplo
AH
J
V
TAH
J
V
T
![Page 203: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/203.jpg)
© E. Sucar, PGM: 1 Introducción 203
Variantes
• Utilizar otros métodos de búsqueda:– Algoritmos genéticos– “Beam search”– Etc.
• Considerar sólo estructuras que seandiferentes estadísticamente, buscando sobreestructuras equivalentes (se llega a unaestructura parcial)
![Page 204: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/204.jpg)
© E. Sucar, PGM: 1 Introducción 204
Estructuras Equivalentes
• Cuando ciertos arcos no se pueden determinar por pruebasestadísticas, por ejemplo:
![Page 205: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/205.jpg)
© E. Sucar, PGM: 1 Introducción 205
Métodos basados en medidas
• Se genera la estructura en base a iragregando/eliminando arcos de acuerdo amedidas de dependencia entre variables
• Ejemplos:– Árboles – método de Chow y Liu– Poliárboles – método de Rebane y Pearl– Multiconectadas – existen varios algoritmos
basados en diferentes medidas
![Page 206: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/206.jpg)
© E. Sucar, PGM: 1 Introducción 206
Algoritmo PC
• Se basa en pruebas de independencia entrevariables:
I (Xi, Xj | A)• Donde A es un subconjunto de variables• Asume que:
– Se tienen suficientes datos– Las pruebas estadísticas no tienen errores
![Page 207: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/207.jpg)
© E. Sucar, PGM: 1 Introducción 207
Prueba de Independencia
• Para probar si X, Y son independientes dado A se utiliza laentropía cruzada condicional:
CE(X,Y | Z) = Σz P(z) Σx,y P(x,y|z) log [P(x,y|z) / P(x|z) P(y|z)]• Si es cero o cercana a cero, quiere decir que son
independientes (se puede usar un umbral o una pruebaestadística con cierto nivel de significancia)
![Page 208: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/208.jpg)
© E. Sucar, PGM: 1 Introducción 208
Algoritmo
1. Encontrar un “esqueleto” (grafo nodirigido)
2. Encontrar arcos convergentes en tripletasde variables por pruebas de independencia
3. Orientar el resto de las ligas de forma queno se produzcan ciclos
![Page 209: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/209.jpg)
© E. Sucar, PGM: 1 Introducción 209
Esqueleto• La idea básica para determinar el esqueleto es
iniciar con un grafo completo (conectando todosvs. todos los nodos) y eliminar el arco entre X –Y si hay un subconjunto de nodos en G (exceptoX, Y) que los hace independientes
• En principio se consideran todos los posiblessubconjuntos de variables, de tamaño 1 hasta detamaño N-1 (N es el número de nodos adyacentesa X)
• El considerar todos los posibles subconjuntos esmuy ineficiente, y normalmente se limita aconsiderar sólo subconjuntos de 1, 2, …, k nodos
![Page 210: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/210.jpg)
© E. Sucar, PGM: 1 Introducción 210
Ejemplo
AH
J
V
T
Probar si H,V sonIndependientes dados:1: J, A, T2: JA, JT, AT3: JAT si
![Page 211: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/211.jpg)
© E. Sucar, PGM: 1 Introducción 211
Ejemplo
AH
J
V
T
Probar si H,T sonIndependientes dados:1: J, A2: JA si
![Page 212: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/212.jpg)
© E. Sucar, PGM: 1 Introducción 212
Ejemplo
AH
J
V
T
Probar si H,A sonIndependientes dados:1: J si
![Page 213: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/213.jpg)
© E. Sucar, PGM: 1 Introducción 213
Ejemplo
AH
J
V
T
Probar si H,J sonIndependientes dados:0, no
![Page 214: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/214.jpg)
© E. Sucar, PGM: 1 Introducción 214
Ejemplo
AH
J
V
T
Probar si A,J sonIndependientes dados:1: T, V2: TV no
![Page 215: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/215.jpg)
© E. Sucar, PGM: 1 Introducción 215
Ejemplo
AH
J
V
T
Probar si A,V sonIndependientes dados:1: T, J2: TJ si
![Page 216: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/216.jpg)
© E. Sucar, PGM: 1 Introducción 216
Ejemplo
AH
J
V
T
Probar si A,T sonIndependientes dados:1: J no
![Page 217: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/217.jpg)
© E. Sucar, PGM: 1 Introducción 217
Ejemplo
AH
J
V
T
Probar si J,V sonIndependientes dados:1: T no
![Page 218: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/218.jpg)
© E. Sucar, PGM: 1 Introducción 218
Ejemplo
AH
J
V
T
Probar si J,T sonIndependientes dados:1: A,V2: AV si
![Page 219: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/219.jpg)
© E. Sucar, PGM: 1 Introducción 219
Ejemplo
AH
J
V
T
Probar si V,T sonIndependientes dados:1: 0 no
![Page 220: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/220.jpg)
© E. Sucar, PGM: 1 Introducción 220
Arcos convergentes
• Se verifica cada tripleta de variables paraencontrar arcos convergentes mediantepruebas de independencia:
X – Z – Y• Si X – Y no son independientes dado Z,
entonces son arcos convergentesX Z Y
![Page 221: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/221.jpg)
© E. Sucar, PGM: 1 Introducción 221
Ejemplo
AH
J
V
T
H,V no sonIndependientes dado J
![Page 222: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/222.jpg)
© E. Sucar, PGM: 1 Introducción 222
Ejemplo
AH
J
V
T
A,V no sonIndependientes dado T
![Page 223: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/223.jpg)
© E. Sucar, PGM: 1 Introducción 223
Otras orientaciones
• En base a los arcos existentes, se orientanlos demás con pruebas de independencia,evitando crear ciclos
• Si quedan al final arcos sin orientar, sedireccionan en forma aleatoria, evitandociclos
![Page 224: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/224.jpg)
© E. Sucar, PGM: 1 Introducción 224
Ejemplo
AH
J
V
T
H, A sonIndependientes dado J
![Page 225: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/225.jpg)
HUGIN
Aprendizaje de RB
![Page 226: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/226.jpg)
© E. Sucar, PGM: 1 Introducción 226
Referencias
• Pearl 88 – Cap. 8• Neapolitan 90 – Cap. 10• Darwiche 09 - Caps. 17,18• T. Mitchell, Machine Learning, McGraw-
Hill, 1997 – Cap. 6
![Page 227: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/227.jpg)
© E. Sucar, PGM: 1 Introducción 227
Referencias• W. Lam, F. Bacchus, "Learning Bayesian Belief
Networks: An Approach based on the MDLPrinclple", Computational Intelligence, Vol. 10(1994) 269-293.
• G. Cooper, E. Herskovits, “A Bayesian method forthe induction of probabilistic networks from data”,Machine Learning, Vol 9, 1992.
• G. Cooper, E. Herskovits, “A Bayesian method forthe induction of probabilistic networks from data”,Machine Learning, Vol 9, 1992.
• L. E. Sucar, D. F. Gillies, D. A. Gillies, "ObjectiveProbabilities in Expert Systems", ArtificialIntelligence Journal, Vol. 61 (1993) 187-208.
• W. Buntine, “A guide to the literature on learningprobabilistic networks form data”, IEEE TKDE.
![Page 228: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/228.jpg)
I.6: Campos de Markov
![Page 229: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/229.jpg)
© E. Sucar, PGM: 1 Introducción 229
Campos de Markov (CAM)
• Ciertos procesos, como un campo magnético o unaimagen, se pueden ver como una serie de estadosen el espacio o una malla de estados.
• A este tipo de modelos se les conoce como Camposde Markov.
• Estos procesos son una extensión de las cadenasde Markov en los cuales el índice de tiempo sesubstituye por un índice espacial
![Page 230: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/230.jpg)
© E. Sucar, PGM: 1 Introducción 230
Modelo de Ising• Surgen del problema de modelar materiales
ferromagnéticos en lo que se conoce como elModelo Ising.
• Se tiene una serie de dipolos en una línea quepueden estar orientados hacia “arriba” (+) o hacia“abajo” (-).
• El estado de cada dipolo se ve influenciado por losdipolos cercanos - probabilidad para cada estadodepende de los estado de los puntos vecinos.
![Page 231: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/231.jpg)
© E. Sucar, PGM: 1 Introducción 231
Modelo de Ising
q1 q2 q4q3
Posibles configuraciones:+ + + ++ + + -+ + - +....
![Page 232: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/232.jpg)
© E. Sucar, PGM: 1 Introducción 232
Modelo de Ising
• Un campo de Markov asigna probabilidad a cadaconfiguración en el espacio de posiblesconfiguraciones.
• Se considera que la probabilidad del estado de unavariable es independiente de los demás dados sus 2vecinos (para una cadena), es decir que tiene lapropiedad Markoviana
( ) ( )knjninkjin qSqSqSPqSqSqSP ======= +! 11....21 ,|,|
![Page 233: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/233.jpg)
© E. Sucar, PGM: 1 Introducción 233
Configuración más probable• Dadas las probabilidades locales, el problema
central en es encontrar la probabilidad de cada unalas posibles configuraciones, y en particular cual esla configuración más probable.– + + + +– + + + -– + + - +– …– - - + +– …– - - - -
![Page 234: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/234.jpg)
© E. Sucar, PGM: 1 Introducción 234
Probabilidades
• Podemos distinguir dos factores quedeterminan la probabilidad de unaconfiguración:
• la P a priori de cada estado,• la P conjunta con sus vecinos.
• En el modelo de Ising, estos corresponden ala influencia de un campo magnético externo,y a las interacciones entre los dipolos vecinos.
![Page 235: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/235.jpg)
© E. Sucar, PGM: 1 Introducción 235
Campos en 2-D
• Esto lo podemos extender de una dimensióna dos dimensiones. En este caso tenemosuna malla de puntos, donde el estado decada punto depende del estado de susvecinos (4, 8, etc).
![Page 236: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/236.jpg)
© E. Sucar, PGM: 1 Introducción 236
Ejemplo
q1 q2
q4 q3
q2 q3
q5 q6q4 q2
q7 q3
q5 q6
q8 q9
![Page 237: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/237.jpg)
© E. Sucar, PGM: 1 Introducción 237
Representación• Un campo aleatorio es una colección de variables
aleatorias indexadas por sitios.
• Se considera un conjunto de variables aleatorias F ={F1,….., FM}, asociadas a cada sitio del sistema desitios S. Cada variable toma un valor fi de un unconjunto de posibles valores L. Entonces F es uncampo aleatorio.
• Un campo aleatorio de Markov (CAM) es un campoaleatorio con la propiedad de “localidad”.
![Page 238: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/238.jpg)
© E. Sucar, PGM: 1 Introducción 238
PropiedadesUn CAM debe satisfacer las siguientes propiedades:
( )( ) ( )( )iiisi fvecfPffP
positivofP||
0=•
!>•
!
Donde vec( fi ) son los vecinos de fi
![Page 239: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/239.jpg)
© E. Sucar, PGM: 1 Introducción 239
Vecindad
{ }SVV ii !"= |
Un sistema de vecindad para S se define como:
• Cumple con las siguientes dos propiedades:1. Un sitio no es vecino de si mismo.
2. La relación de vecindad es mutua.
• Se pueden tener diferentes “vecindades” (primerorden, segundo orden, etc.).
![Page 240: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/240.jpg)
© E. Sucar, PGM: 1 Introducción 240
VecindadPara una malla regular, la vecindad de orden i conradio r se define como:
( ) ( )( ){ }rividistSvV ii !"= ,|
Donde dist(x,y) es la distancia euclidiana entre x y y.
En un sistema de vecindad de primer orden,cada, sitio (interior) tiene 4 vecinos; en uno desegundo orden, 8 vecinos: en uno de tercerorden, 12 vecinos, etc.
![Page 241: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/241.jpg)
© E. Sucar, PGM: 1 Introducción 241
Ejemplo – 1er orden
q1 q2
q4 q3
q2 q3
q5 q6q4 q2
q7 q3
q5 q6
q8 q9
![Page 242: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/242.jpg)
© E. Sucar, PGM: 1 Introducción 242
Ejemplo – 2do orden
q1 q2
q4 q3
q2 q3
q5 q6q4 q2
q7 q3
q5 q6
q8 q9
![Page 243: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/243.jpg)
© E. Sucar, PGM: 1 Introducción 243
Conjuntos CompletosEl conjunto de sitios junto con las vecindades nosdefinen un grafo no-dirigido: G=(S, V).
Un conjunto completo (C) se define como unsubconjunto de sitios de forma que están todosconectado contra todos
Un conjunto completo puede ser un solo sitio, C1, unpar de sitios vecinos, C2, una tripleta de vecinos, C3, yasí sucesivamente. De forma que la colección de Cpara un grafo esta dada por:
...321 !!!= CCCC
![Page 244: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/244.jpg)
© E. Sucar, PGM: 1 Introducción 244
Configuración más probableUna aplicación típica de CAMs es para obtener laconfiguración más probable dadas ciertasrestricciones representadas por las probabilidadeslocales (potenciales)
Podemos expresar la probabilidad conjunta, comoel producto de las probabilidades de lasvecindades:
( ) ccGF PkfP !=/
![Page 245: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/245.jpg)
© E. Sucar, PGM: 1 Introducción 245
Configuración más probable
Dichas probabilidades de las vecindades(potenciales) se pueden ver como “restricciones”que van a favorecer o desfavorecer ciertasconfiguraciones.
De esta forma, la configuración más probable sepuede ver como aquella que tiene una mayorcompatibilidad con las probabilidades locales.
![Page 246: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/246.jpg)
© E. Sucar, PGM: 1 Introducción 246
Configuración más probablePodemos expresar los potenciales en forma deexponenciales (de esta forma pueden ser cualquiernúmero real):
Pot(xc) = exp{-Uc (xc)}Así que el producto se vuelve una suma:
Up(f) = Σ Uc (xc)Por lo que la probabilidad conjunta se puede expresar como:
( ) ( ) ( )[ ]fUZfP pGF != exp1/
![Page 247: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/247.jpg)
© E. Sucar, PGM: 1 Introducción 247
Campo de GibbsLo anterior también se puede obtener mediante unaanalogía entre los CAM y los Campo Aleatorio deGíbbs (CAG).
Una distribución de Gibbs tiene la siguiente forma (Zes una constante de normalización):
( ) ( ) ( )
( )!"#
$%&'(=
!"#
$%&'=
) TfUZ
Donde
TfU
zfP
Ff exp
:
exp1
![Page 248: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/248.jpg)
© E. Sucar, PGM: 1 Introducción 248
Campo de GibbsU(f) se conoce como la función de energía y seobtiene como la suma de los potenciales de todoslos C:
U ( f ) = Σc Vc ( f )
La configuración más probable corresponde a la deenergía mínima.
La función de energía se puede expresar entérminos de los C de cada tamaño:
( ) ( ) ( ) ( ) .....,,, 332211 +!+!+!= kjicjicic fffVffVfVfU
![Page 249: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/249.jpg)
© E. Sucar, PGM: 1 Introducción 249
Campo de Gibbs
Se puede demostrar que un CAM y elcorrespondiente CAG son equivalentes.
Esto permite que se pueda expresar laprobabilidad conjunta especificando lospotenciales de los C. En la práctica seseleccionan los potenciales de acuerdo alcomportamiento deseado – con los potencialesse codifica el conocimiento a priori del problema.
![Page 250: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/250.jpg)
© E. Sucar, PGM: 1 Introducción 250
Configuración más probable• Entonces, para especificar un CAM se
requiere:– Definir el esquema de vecindad– Especificar las probabilidades
(potenciales) para cada uno de losconjuntos completos de nodos
Para el caso de vecindad de primer orden:
( ) ( ) ( )fVfVfU OOccp !+!= "
![Page 251: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/251.jpg)
© E. Sucar, PGM: 1 Introducción 251
Configuración más probable• Vc corresponde a PF o la información del dominio
dada por los vecinos y VO corresponde a PG/F o lainformación de las observaciones; λ es unaconstante que da el peso relativo entre ambas.
• Bajo este enfoque, la solución a un problemaparticular corresponde en encontrar la configuracióndel CAM de mayor probabilidad o de “energía” (UP)mínima. La función que se logre depende de laforma de las funciones para VC y V0.
![Page 252: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/252.jpg)
© E. Sucar, PGM: 1 Introducción 252
Ejemplo• Por ejemplo, podemos querer “suavizar”
una imagen; es decir, minimizar la“distancia” de cada pixel a sus vecinos,pero también mantenerlo cercano a suvalor en la imagen (observación):
( ) ( )( ) ( )20
2
gffV
uffVc!=
!=
![Page 253: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/253.jpg)
© E. Sucar, PGM: 1 Introducción 253
Ejemplo
Fimagen “suavizada”
Gimagen “original”
q1 q2
q4 q3
q2 q3
q5 q6q4 q2
q7 q3
q5 q6
q8 q9
![Page 254: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/254.jpg)
© E. Sucar, PGM: 1 Introducción 254
Analogía Física
![Page 255: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/255.jpg)
© E. Sucar, PGM: 1 Introducción 255
Analogía Física- más peso a las observaciones -
![Page 256: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/256.jpg)
© E. Sucar, PGM: 1 Introducción 256
Analogía Física- más peso a los vecinos -
![Page 257: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/257.jpg)
© E. Sucar, PGM: 1 Introducción 257
Algoritmos• El obtener la configuración de mayor
probabilidad (mínima energía) en formadirecta (exhaustiva) prácticamenteimposible (excepto para problemas muypequeño), por lo que se plantea como unproblema de búsqueda. Se busca laconfiguración de mayor probabilidad, sintener que calcular directamente lasprobabilidades de cada configuración.
![Page 258: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/258.jpg)
© E. Sucar, PGM: 1 Introducción 258
AlgoritmosEl problema incluye 3 aspectos:
1. Representación: CAM con un esquema devecindad y los potenciales asociados
2. Función objetivo: Función de energía aminimizar.
3. Algoritmo de optimización: simulaciónestocástica (Metropolis)
![Page 259: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/259.jpg)
© E. Sucar, PGM: 1 Introducción 259
Algoritmo básico• Inicializar con un valor aleatorio cada variable.• Repetir para cada variable en el campo:
- Calcular el valor de energía (potencial) de cadavariable en base a la función deseada y los valoresde los vecinos. - Si el valor de energía es menor al anterior cambiar de valor. - Si no, con cierta probabilidad también cambiar de valor.
• Hasta que se cumplan N iteraciones o ya nohaya cambios (convergencia)
• Obtener configuración “óptima”
![Page 260: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/260.jpg)
© E. Sucar, PGM: 1 Introducción 260
Variantes
Cálculo del óptimo:
• MAP: se toma el valor para cada variable al final delas iteraciones.
• MPM: se toma el valor de mayor frecuencia deacuerdo a su ocurrencia durante la simulación.
![Page 261: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/261.jpg)
© E. Sucar, PGM: 1 Introducción 261
VariantesForma de optimización:
• Metrópolis: con probabilidad fija se puedepasar a estados de mayor energía.
• Recocido simulado: se va disminuyendo laprobabilidad de pasar a estados de mayorenergía (temperatura).
• ICM: tomar siempre el estado de menorenergía.
![Page 262: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/262.jpg)
© E. Sucar, PGM: 1 Introducción 262
Probabilidades de transición
• Probabilidad de transición a estado demayor energía:
• Donde δV es la diferencia de energía yT es la temperatura
TVeP /!"=
![Page 263: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/263.jpg)
© E. Sucar, PGM: 1 Introducción 263
Ejemplo
• Dada la siguienteimagen:
• Consideramos:– Configuración inicial
de ceros– Vecindad de primer
orden– Potenciales de
suavizamiento con l =4 1110
1010
1110
0000
![Page 264: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/264.jpg)
© E. Sucar, PGM: 1 Introducción 264
Ejemplo
1era iteración:• 1er sitio:
V1 (0) = 0V1(1) = 2 + 4 (1) = 6
• …• …
0000
0000
0000
0000
![Page 265: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/265.jpg)
© E. Sucar, PGM: 1 Introducción 265
Ejemplo
• …• …• 11vo sitio:
V11(0) = 2V11(1) = 6
• …
0000
0010
1110
0000
![Page 266: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/266.jpg)
© E. Sucar, PGM: 1 Introducción 266
Ejemplo
2da iteración• …• 11ovo sitio:
V11(0) = 4V11(1) = 4
• …
1110
1110
1110
0000
![Page 267: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/267.jpg)
© E. Sucar, PGM: 1 Introducción 267
Aplicaciones
• Procesamiento de imágenes– Eliminación de ruido– Filtrado de una imagen– Segmentación de texturas– Visión estereoscópica– Recuperación de forma (3-D)– Reconocimiento de objetos– Etiquetado de imágenes
![Page 268: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/268.jpg)
© E. Sucar, PGM: 1 Introducción 268
Ejemplo – eliminación de ruido
![Page 269: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/269.jpg)
© E. Sucar, PGM: 1 Introducción 269
Ejemplo – eliminación de ruido
![Page 270: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/270.jpg)
© E. Sucar, PGM: 1 Introducción 270
Ejemplo – eliminación de ruido
![Page 271: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/271.jpg)
© E. Sucar, PGM: 1 Introducción 271
Referencias• Li, “Markov Random Fields Models in Computer
Vision”, Springer-Verlag• Chellapa, Jain, “Markov Random Fields: Theory
and Models”, Academic Press.
![Page 272: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/272.jpg)
© E. Sucar, PGM: 1 Introducción 272
Sumario
• Los modelos gráficos probabilistaspermiten representar una distribución deprobabilidad en forma compacta y másentendible
• A partir de estas representaciones podemosobtener la probabilidad de ciertas variablesdadas otras, mediante lo que se conocecomo razonamiento probabilista
![Page 273: Parte I: MGPs](https://reader036.fdocuments.es/reader036/viewer/2022072017/62d765683871fc1aba0f1dbc/html5/thumbnails/273.jpg)
© E. Sucar, PGM: 1 Introducción 273
Sumario
• Existen varios tipos de modelos:clasificadores bayesianos, redes bayesianas,campos de Markov, etc.
• El tipo del modelo más adecuado dependede la aplicación
• Hay diversas técnicas para aprender estosmodelos a partir de datos