Jesús García Herrero CLASIFICADORES...
Transcript of Jesús García Herrero CLASIFICADORES...
Jesús García Herrero
CLASIFICADORES BAYESIANOS
En esta clase se presentan los algoritmos Análisis de Datos para abordar tareas de aprendizaje
de modelos predictivos.
Se particularizan las técnicas estadísticas vistas anteriormente para resolver tareas predictivas:
por un lado la regresión (lineal o no lineal) para predecir valores numéricos, y su aplicación
para predecir probabilidades y clasificar instancias mediante regresión logística, y los
clasificadores bayesianos como modelo de aprendizaje de parámetros de distribuciones de
probabilidad para predecir probabilidades de clases.
La clasificación mediante regresión permite estimar las fronteras de decisión entre clases,
presentando la equivalencia del aprendizaje de fronteras de clasificación al de las funciones de
estimación de pertenencia a la clase. Se puede ver la limitación de esta técnica a problemas
linealmente separables.
Los clasificadores bayesianos parten del principio de probabilidad condicionada para estimar
probabilidades a posteriori de pertencia a clases de las instancia, una vez calculadas las
probabilidades de los valores de los atributos (probabilidades a priori) en la fase de
entrenamiento. Estos clasificadores permiten tratar con datos nominales y numéricos, en este
último caso utilizando distribuciones normales para simplificar el proceso. La limitación está en
el cálculo de dependencias entre los atributos, que requeriría un número de datos exponencial
con la dimensión de éstos, problema habitualmente tratado con la simplificación de
independencia condicional (método “naïve Bayes”). Se completa el tema revisando aspectos
prácticos que surgen al aplicar técnicas de clasificación sobre datos reales: tratamiento de
datos incompletos y datos insuficientes para estimar probabilidades muy pequeñas.
Técnicas Clásicas en Problemas de Clasificación
Clasificadores Bayesianos
Métodos probabilísticos y numéricos
de clasificación
Jesús García Herrero
Universidad Carlos III de Madrid
Técnicas Clásicas en Problemas de Clasificación
Clasificación numérica
• Modelado de datos con atributos numéricos para su aplicación a
Clasificación. Generalización
• Datos representados como vectores de atributos numéricos: patrones
• Problemas: dimensionalidad, sobreajuste.
N21 X,...,X,X
A1 A2 ... AF
x1
1 x1
2 ... x1
F
x2
1 x2
2 ... x2
F
x3
1 x3
2 ... x3
F
... ... ... ...
xN
1 xN
2 ... xN
F
Técnicas Clásicas en Problemas de Clasificación
Clasificación numérica
Problema de Clasificación
• Clases: {C1, ..., CM}
• Muestras:E=
– Tamaño:
• Para cada clase, Ci, hay ni patrones, cada uno con F atributos: para cada clase Ci:
}X...,X ,...,X ,...,X ,X...,,X{)M(
n)M(
1)2(
n)2(
1)1(
n)1(
1M21
}X...,,X{)i(
n)i(
1i
i)i(
Fj
)i(j1
)i(j n,...,1j;
x
x
X
M
1jjnN
Técnicas Clásicas en Problemas de Clasificación
Clasificación numérica
• Función discriminante de cada clase:
• Propiedad deseable para el diseño de gi(.): sobre el conjunto de
entrenamiento E, cada patrón de la clase Ci tiene un valor máximo con el
discriminante gi(.):
M,...,1i),X(gi
)X(g1
)X(g2
)X(gM
X Max(.) C
i
i
jk
Mk
i
ji njXgXg ,...,1)},({max)( )(
,...,1
)(
)Xg(C X
}C,...,C{CR:(.)g M1F
Técnicas Clásicas en Problemas de Clasificación
Fronteras de decisión
lineales:)X(gij
0
5
10
15
20
25
30
0 5 10 15 20 25 30
X1
X2
+
+
+
+
+ +
+
+ +
+
++
++
12
3
g13
g12
g23
Técnicas Clásicas en Problemas de Clasificación
Fronteras de decisión
scuadratica:)X(gij
0
5
10
15
20
25
30
0 5 10 15 20 25 30
X1
X2
+
+
+
+
+ +
+
+ +
+
++
++
12
3g13
g12 g23
g12
Técnicas Clásicas en Problemas de Clasificación
Clasificación con Regresión Lineal • Para cada clase se define la función de pertenencia gi:
• Se construye una función lineal que “aproxime” gi:
• Hay que “aprender” M funciones gi
i
ii
CX;0
CX;1)X(g
i
ti
1i
tii
t)I(
n
t)1(1
t)i(
n
t)i(1
ii yH]HH[A ;
X1
X1
X1
X1
H
0
0
1
1
y
I
i
todos los datos 1s en los patrones
de Ci
0s en resto
Técnicas Clásicas en Problemas de Clasificación
Clasificación bayesiana:
aplicación de modelos estadísticos • Clasificación con modelo de estructura probabilística
conocida
Clases: {C1, ..., CM}. Se conoce a priori:
– Probabilidades de clase: P(Ci)
– Distribuciones de probabilidad condicionadas
(parámetros constantes)
– densidad
)C(P
)C,xX,...,xX(P
)C|xX,...,xX(P)C|x,...,x(F
i
iII11
iIII1iI1X
I1
iI1XiI1X x...x
)C|x,...,x(F)C|x,...,x(f
Técnicas Clásicas en Problemas de Clasificación
• Parámetros: vector de medias y matriz covarianzas
• Ejemplo
Ej.: distribución normal multivariada
2xxxxx
xxxx2
1x
n
1
1t2/n
F2n1F
F121
S;
)x(S)x(2
1exp
S2
1)x(f
216
621S;
5
30
Técnicas Clásicas en Problemas de Clasificación
Teorema de Bayes aplicado a clasificación
• Probabilidad a posteriori: es la probabilidad de que el ejemplo tenga
clase Ci:
• Probabilidad a priori: P(Ci) es la probabilidad total de cada clase
• Verosimilitud: : es la distribución de Ci aplicada a
• Densidad total:
Criterio de clasificación MAP:
– función discriminante de Ci: proporcional a su prob a posteriori:
– la clase es la de aquella que maximiza el discriminante
)X(f
)C(p)C|X(f)X|C(P ii
i
)X|C(P i
)C|X(f i
)C(P)C|X(f...)C(P)C|X(f)X(f MM11
)C(p)C|X(f
i
máximo)X|C(P
i
máximo)X(Clase iii
)C(p)C|X(f)X(g iii
X
Técnicas Clásicas en Problemas de Clasificación
Clasificación bayesiana y distrib normal
• Distribuciones condicionales gaussianas. Para cada clase Ci
hay una función discriminante de parámetros ij, ij, j=1...I
• Parámetros de distribución condicionada a cada clase
• Regiones de decisión:
– Funciones cuadráticas (hipérbolas) dadas por
diferencias:
– Si son iguales, y diagonales: regiones lineales (caso
particular)
2
ij
F
1i
2ijj
1t
Fii2i1
2/n
iiii
/)x(2
1K:ionsimplifica
)x(S)x(2
1
...2
)C(Plog))C|x(f)C(Plog()x(g
)x(g)x(g)x(g jiij
Técnicas Clásicas en Problemas de Clasificación
Ejemplo con distribución normal
• C1:
• C2:
• C3:
216
621R;530C;3.0P 1
t11
166
616R;535C;2.0P 2
t22
42
216R;1010C;5.0P 3
t33
Técnicas Clásicas en Problemas de Clasificación
Ejemplo
-50 -40 -30 -20 -10 0 10 20 30 40 50
-30
-20
-10
0
10
20
30
40
C1
g23 C3
C2
g13
g12
Técnicas Clásicas en Problemas de Clasificación
Resumen clasificador bayesiano numérico
• Algoritmo:
• Estimar parámetros de cada clase Ci (entrenamiento)
• Estimar probabilidad de cada clase
• Obtener regiones de decisión: gij(.)
ii)i(
n)i(
1i C,}X...,,X{:Ci
M
1ii
ii nn;
N
n)C(P
in
1j
)i(ji x
n
1ˆ
in
1j
tiiii
i
i )x)(x(n
1C
Técnicas Clásicas en Problemas de Clasificación
Clasificación Bayesiana con Atributos Nominales
Atributos nominales con valores discretos
– Ai={V1,...,Vni}: atributo con ni valores posibles
– Pasamos de densidades a probabilidades:
probabilidad a priori: p(Ai=Vj|Ck)?
– Estimación “contando” el número de casos:
k
jikkji
C clase de jemplose de ºn
VAcon C clase de jemplose de ºn)C|VA(p
Técnicas Clásicas en Problemas de Clasificación
Clasificación Bayesiana con Atributos Nominales
• Simplificación: independencia de atributos (“Naive Bayes”):
la probabilidad conjunta de varios atributos se pone como
producto
• Clasificación:
)C|VA(p*...*C|VA(p*)C|VA(p)C|X(p
)VA,...,VA,VA(X
kIIk22k11ki
II2211i
)X(p
)C(p*)C|VA(p*...*)C|VA(p*)C|VA(p
)X(p
)C(p*)C|X(p)X|C(p
i
kkFFk22k11
i
kkiik
Técnicas Clásicas en Problemas de Clasificación
Ejemplo con atributos nominales
SALARIO CLIENTE EDAD HIJOS CRÉDITO
Poco Sí Joven Uno NO Mucho Si Joven Uno SI Mucho Si Joven Uno SI Poco Si Joven Uno NO
Mucho Si Joven Dos SI Poco Si Joven Dos NO
Mucho Si Adulto Dos SI Mucho Si Adulto Dos SI Poco No Adulto Dos NO
Mucho Si Adulto Dos SI Medio No Adulto Tres NO Mucho Si Adulto Dos SI Medio Si Adulto Dos SI Medio No Adulto Tres NO Medio No Adulto Dos SI Mucho No Mayor Tres NO Poco No Mayor Tres SI Poco No Mayor Tres SI
Mucho No Mayor Tres NO Mucho No Mayor Tres SI
p(SI) = 12/20
p(NO) = 8/20
Salario
Crédito No Sí
Poco 4/8 2/12
Mucho 2/8 8/12
Medio 2/8 2/12
Cliente
Crédito No Sí
Sí 3/8 8/12
No 5/8 4/12
Edad
Crédito No Sí
Joven 3/8 3/12
Adulto 3/8 6/12
Mayor 2/8 3/12
Hijos
Crédito No Sí
Uno 2/8 2/12
Dos 2/8 7/12
Tres 4/8 3/12
Técnicas Clásicas en Problemas de Clasificación
Ejemplo con atributos nominales
• Ej.: (salario=poco, cliente=si, edad=adulto, hijos=tres)
)Xi(p/0141.0)Xi(p/20/8*8/4*8/3*8/3*8/4
)X(p/)NO(p*)NO|tresh(p*)NO|adultoe(p*)NO|sic(p*)NO|pocos(p
)X|NO(p
)Xi(p/0083.0)Xi(p/20/12*12/3*12/6*12/8*12/2
)X(p/)SI(p*)SI|tresh(p*)SI|adultoe(p*)SI|sic(p*)SI|pocos(p
)X|SI(p
i
i
i
i
Técnicas Clásicas en Problemas de Clasificación
Atributos sin valores
• Si el ejemplo a clasificar no tiene un atributo, simplemente se
omite.
– Ej.: (salario=poco, cliente=si, edad=?, hijos=3)
• Si hay faltas en la muestra de entrenamiento, no cuentan en la
estimación de probabilidades de ese atributo
)Xi(p/0375.0)Xi(p/20/8*8/4*8/3*8/4
)X(p/)NO(p*)NO|tresh(p*)NO|sic(p*)NO|pocos(p
)X|NO(p
)Xi(p/0167.0)Xi(p/20/12*12/3*12/8*12/2
)X(p/)SI(p*)SI|tresh(p*)SI|sic(p*)SI|pocos(p
)X|SI(p
i
i
i
i
Técnicas Clásicas en Problemas de Clasificación
Faltas en atributo EDAD
SALARIO CLIENTE EDAD HIJOS CRÉDITO
Poco Sí Joven Uno NOMucho Si Joven Uno SIMucho Si Joven Uno SIPoco Si ? Uno NO
Mucho Si ? Dos SIPoco Si ? Dos NO
Mucho Si ? Dos SIMucho Si Adulto Dos SIPoco No Adulto Dos NO
Mucho Si Adulto Dos SIMedio No Adulto Tres NOMucho Si Adulto Dos SIMedio Si Adulto Dos SIMedio No Adulto Tres NOMedio No Adulto Dos SIMucho No Mayor Tres NOPoco No Mayor Tres SIPoco No Mayor Tres SI
Mucho No Mayor Tres NOMucho No Mayor Tres SI
Salario
Crédito No Sí
Poco 4/8 2/12
Mucho 2/8 8/12
Medio 2/8 2/12
ClienteCrédito No Sí
Sí 3/8 8/12
No 5/8 4/12
EdadCrédito No Sí
Joven 1/6 2/10
Adulto 3/6 5/10
Mayor 2/6 3/10
p(SI) = 12/20
p(NO) = 8/20
Hijos
Crédito No Sí
Uno 2/8 2/12
Dos 2/8 7/12
Tres 4/8 3/12
Técnicas Clásicas en Problemas de Clasificación
Atributos no representados.
Laplace • Problema: con muestra poco representativa, puede ocurrir que
en alguna clase, un valor de atributo no aparezca: p(Ai=Vj|Ck)=0
– Cualquier ejemplo X con Ai=Vj generará P(Ck|X)=0,
independientemente de los otros atributos!
• Se suele modificar la estimación de las probabilidades a priori
con un factor que elimina los ceros.
– Ej.: P(Edad|Crédito=NO)=
– Ley :
– A veces simplemente se inicializan las cuentas a 1 en vez de 0:
8
2:Mayor,
8
3:Adulto,
8
3:Joven
8
3/2:Mayor,
8
3/3:Adulto,
8
3/3:Joven
38
12:Mayor,
38
13:Adulto,
38
13:Joven
Técnicas Clásicas en Problemas de Clasificación
Atributos mixtos
• Independencia de atributos (“Naive Bayes”)
– Atributos discretos: probabilidades a priori con cada clase Ck
– Atributos continuos: densidades de clase Ck: normales de parámetros
k, k
)C|VA(p*...*)C|VA(p*)C|VA(p)C|X(p kFFk22k11ki
k
jikkji
C clase de jemplose de ºn
VAcon C clase de jemplose de ºn)C|VA(p
2ik
2ikj
ikkjiAkji
)V(
2
1exp
2
1)C|V(f)C|VA(p
Técnicas Clásicas en Problemas de Clasificación
Ejemplo con atributos mixtos
SALARIO CLIENTE EDAD HIJOS CRÉDITO
525 Sí Joven 1 NO 2000 Si Joven 1 SI 2500 Si Joven 1 SI 470 Si Joven 1 NO
3000 Si Joven 2 SI 510 Si Joven 2 NO
2800 Si Adulto 2 SI 2700 Si Adulto 2 SI 550 No Adulto 2 NO
2600 Si Adulto 2 SI 1100 No Adulto 3 NO 2300 Si Adulto 2 SI 1200 Si Adulto 2 SI 900 No Adulto 3 NO 800 No Adulto 2 SI 800 No Mayor 3 NO
1300 No Mayor 3 SI 1100 No Mayor 3 SI 1000 No Mayor 3 NO 4000 No Mayor 3 SI
p(SI) = 12/20
p(NO) = 8/20
HijosCrédito No Sí
Media 2.25 2.08
Desv Estándar 0.89 0.67
Edad
Crédito No Sí
Joven 3/8 3/12
Adulto 3/8 6/12
Mayor 2/8 3/12
Cliente
Crédito No Sí
Sí 3/8 8/12
No 5/8 4/12
SalarioCrédito No Sí
Media 732 2192
Desv Estándar 249 942
Técnicas Clásicas en Problemas de Clasificación
Ejemplo con atributos mixtos
• Ej.: (salario=700, cliente=si, edad=adulto, hijos=3)
)Xi(p/5e81.2
)X(P/1*20/8*89.0
)25.23(
2
1exp
89.02
1*8/3*8/3*
249
)732700(
2
1exp
2492
1
)X(p/)NO(p*)NO|3h(f*)NO|adultoe(p*)NO|sic(p*)NO|700s(f
)X|NO(p
)Xi(p/6e61.5
)X(P/1*20/12*67.0
)08.23(
2
1exp
67.02
1*12/6*12/8*
942
)2192700(
2
1exp
9422
1
)X(p/)SI(p*)SI|3h(f*)SI|adultoe(p*)SI|sic(p*)SI|700s(f
)X|SI(p
i2
2
2
2
iHS
i
i2
2
2
2
iHS
i
Técnicas Clásicas en Problemas de Clasificación
• MAP proporciona clasificación con mínima prob. de Error
– Coste de decisión : prob. Error total=
• Con frecuencia los costes son asimétricos, y unos errores son más
graves que otros. Matriz de costes
• Costes de cada decisión. Criterio de mínimo coste medio: dada una
decisión, promedio los costes de cada equivocación y su coste:
Clasificación con costes
)X|C(P1 i
X|Di
0cc
c0c
cc0
3231
2321
1312Clase
real
Clasificado como
)X|C(pc)X|C(pc)X|D(tecos
)X|C(pc)X|C(pc)X|D(tecos
)X|C(pc)X|C(pc)X|D(tecos
2231133
3321122
3312211
Técnicas Clásicas en Problemas de Clasificación
-30 -20 -10 0 10 20 30 40 50-50
-40
-30
-20
-10
0
10
20
30
-30 -20 -10 0 10 20 30 40 50-50
-40
-30
-20
-10
0
10
20
30
• Clasificación de setas con dos atributos, (X, Y) y tres categorías:
Venenosa, Mal sabor, comestible: {V, MS, C}
Ejemplo de clasificación con costes
011
1001
100010000Clase
real
Clasificado como
V MS C
V
MS
C
5145
4551C;2020:MS
7140
4071C;55:C
7150
5071C;55:V
3t
3
2t
2
1t
1
V
C
MS
V
C
MS
Mínimo
error Mínimo
coste