Jesús García Herrero CLASIFICADORES...

Jesús García Herrero

CLASIFICADORES BAYESIANOS

En esta clase se presentan los algoritmos Análisis de Datos para abordar tareas de aprendizaje

de modelos predictivos.

Se particularizan las técnicas estadísticas vistas anteriormente para resolver tareas predictivas:

por un lado la regresión (lineal o no lineal) para predecir valores numéricos, y su aplicación

para predecir probabilidades y clasificar instancias mediante regresión logística, y los

clasificadores bayesianos como modelo de aprendizaje de parámetros de distribuciones de

probabilidad para predecir probabilidades de clases.

La clasificación mediante regresión permite estimar las fronteras de decisión entre clases,

presentando la equivalencia del aprendizaje de fronteras de clasificación al de las funciones de

estimación de pertenencia a la clase. Se puede ver la limitación de esta técnica a problemas

linealmente separables.

Los clasificadores bayesianos parten del principio de probabilidad condicionada para estimar

probabilidades a posteriori de pertencia a clases de las instancia, una vez calculadas las

probabilidades de los valores de los atributos (probabilidades a priori) en la fase de

entrenamiento. Estos clasificadores permiten tratar con datos nominales y numéricos, en este

último caso utilizando distribuciones normales para simplificar el proceso. La limitación está en

el cálculo de dependencias entre los atributos, que requeriría un número de datos exponencial

con la dimensión de éstos, problema habitualmente tratado con la simplificación de

independencia condicional (método “naïve Bayes”). Se completa el tema revisando aspectos

prácticos que surgen al aplicar técnicas de clasificación sobre datos reales: tratamiento de

datos incompletos y datos insuficientes para estimar probabilidades muy pequeñas.

Técnicas Clásicas en Problemas de Clasificación

Clasificadores Bayesianos

Métodos probabilísticos y numéricos

de clasificación

Jesús García Herrero

Universidad Carlos III de Madrid


Clasificación numérica

• Modelado de datos con atributos numéricos para su aplicación a

Clasificación. Generalización

• Datos representados como vectores de atributos numéricos: patrones

• Problemas: dimensionalidad, sobreajuste.

N21 X,...,X,X

A1 A2 ... AF

x1

1 x1

2 ... x1

F

x2

1 x2

2 ... x2

F

x3

1 x3

2 ... x3

F

... ... ... ...

xN

1 xN

2 ... xN

F



Problema de Clasificación

• Clases: {C1, ..., CM}

• Muestras:E=

– Tamaño:

• Para cada clase, Ci, hay ni patrones, cada uno con F atributos: para cada clase Ci:

}X...,X ,...,X ,...,X ,X...,,X{)M(

n)M(

1)2(

n)2(

1)1(

n)1(

1M21

}X...,,X{)i(

n)i(

1i

i)i(

Fj

)i(j1

)i(j n,...,1j;

x

x

X

M

1jjnN



• Función discriminante de cada clase:

• Propiedad deseable para el diseño de gi(.): sobre el conjunto de

entrenamiento E, cada patrón de la clase Ci tiene un valor máximo con el

discriminante gi(.):

M,...,1i),X(gi

)X(g1

)X(g2

)X(gM

X Max(.) C

i

i

jk

Mk

i

ji njXgXg ,...,1)},({max)( )(

,...,1

)(

)Xg(C X

}C,...,C{CR:(.)g M1F


Fronteras de decisión

lineales:)X(gij

0

5

10

15

20

25

30

0 5 10 15 20 25 30

X1

X2

+

+

+

+

+ +

+

+ +

+

++

++

12

3

g13

g12

g23


Fronteras de decisión

scuadratica:)X(gij

0

5

10

15

20

25

30

0 5 10 15 20 25 30

X1

X2

+

+

+

+

+ +

+

+ +

+

++

++

12

3g13

g12 g23

g12


Clasificación con Regresión Lineal • Para cada clase se define la función de pertenencia gi:

• Se construye una función lineal que “aproxime” gi:

• Hay que “aprender” M funciones gi

i

ii

CX;0

CX;1)X(g

i

ti

1i

tii

t)I(

n

t)1(1

t)i(

n

t)i(1

ii yH]HH[A ;

X1

X1

X1

X1

H

0

0

1

1

y

I

i

todos los datos 1s en los patrones

de Ci

0s en resto


Clasificación bayesiana:

aplicación de modelos estadísticos • Clasificación con modelo de estructura probabilística

conocida

Clases: {C1, ..., CM}. Se conoce a priori:

– Probabilidades de clase: P(Ci)

– Distribuciones de probabilidad condicionadas

(parámetros constantes)

– densidad

)C(P

)C,xX,...,xX(P

)C|xX,...,xX(P)C|x,...,x(F

i

iII11

iIII1iI1X

I1

iI1XiI1X x...x

)C|x,...,x(F)C|x,...,x(f


• Parámetros: vector de medias y matriz covarianzas

• Ejemplo

Ej.: distribución normal multivariada

2xxxxx

xxxx2

1x

n

1

1t2/n

F2n1F

F121

S;

)x(S)x(2

1exp

S2

1)x(f

216

621S;

5

30


Teorema de Bayes aplicado a clasificación

• Probabilidad a posteriori: es la probabilidad de que el ejemplo tenga

clase Ci:

• Probabilidad a priori: P(Ci) es la probabilidad total de cada clase

• Verosimilitud: : es la distribución de Ci aplicada a

• Densidad total:

Criterio de clasificación MAP:

– función discriminante de Ci: proporcional a su prob a posteriori:

– la clase es la de aquella que maximiza el discriminante

)X(f

)C(p)C|X(f)X|C(P ii

i

)X|C(P i

)C|X(f i

)C(P)C|X(f...)C(P)C|X(f)X(f MM11

)C(p)C|X(f

i

máximo)X|C(P

i

máximo)X(Clase iii

)C(p)C|X(f)X(g iii

X


Clasificación bayesiana y distrib normal

• Distribuciones condicionales gaussianas. Para cada clase Ci

hay una función discriminante de parámetros ij, ij, j=1...I

• Parámetros de distribución condicionada a cada clase

• Regiones de decisión:

– Funciones cuadráticas (hipérbolas) dadas por

diferencias:

– Si son iguales, y diagonales: regiones lineales (caso

particular)

2

ij

F

1i

2ijj

1t

Fii2i1

2/n

iiii

/)x(2

1K:ionsimplifica

)x(S)x(2

1

...2

)C(Plog))C|x(f)C(Plog()x(g

)x(g)x(g)x(g jiij


Ejemplo con distribución normal

• C1:

• C2:

• C3:

216

621R;530C;3.0P 1

t11

166

616R;535C;2.0P 2

t22

42

216R;1010C;5.0P 3

t33


Ejemplo

-50 -40 -30 -20 -10 0 10 20 30 40 50

-30

-20

-10

0

10

20

30

40

C1

g23 C3

C2

g13

g12


Resumen clasificador bayesiano numérico

• Algoritmo:

• Estimar parámetros de cada clase Ci (entrenamiento)

• Estimar probabilidad de cada clase

• Obtener regiones de decisión: gij(.)

ii)i(

n)i(

1i C,}X...,,X{:Ci

M

1ii

ii nn;

N

n)C(P

in

1j

)i(ji x

n

1ˆ

in

1j

tiiii

i

i )x)(x(n

1C


Clasificación Bayesiana con Atributos Nominales

Atributos nominales con valores discretos

– Ai={V1,...,Vni}: atributo con ni valores posibles

– Pasamos de densidades a probabilidades:

probabilidad a priori: p(Ai=Vj|Ck)?

– Estimación “contando” el número de casos:

k

jikkji

C clase de jemplose de ºn

VAcon C clase de jemplose de ºn)C|VA(p


Ejemplo con atributos nominales

SALARIO CLIENTE EDAD HIJOS CRÉDITO

Poco Sí Joven Uno NO Mucho Si Joven Uno SI Mucho Si Joven Uno SI Poco Si Joven Uno NO

Mucho Si Joven Dos SI Poco Si Joven Dos NO

Mucho Si Adulto Dos SI Mucho Si Adulto Dos SI Poco No Adulto Dos NO

Mucho Si Adulto Dos SI Medio No Adulto Tres NO Mucho Si Adulto Dos SI Medio Si Adulto Dos SI Medio No Adulto Tres NO Medio No Adulto Dos SI Mucho No Mayor Tres NO Poco No Mayor Tres SI Poco No Mayor Tres SI

Mucho No Mayor Tres NO Mucho No Mayor Tres SI

p(SI) = 12/20

p(NO) = 8/20

Salario

Crédito No Sí

Poco 4/8 2/12

Mucho 2/8 8/12

Medio 2/8 2/12

Cliente

Crédito No Sí

Sí 3/8 8/12

No 5/8 4/12

Edad

Crédito No Sí

Joven 3/8 3/12

Adulto 3/8 6/12

Mayor 2/8 3/12

Hijos

Crédito No Sí

Uno 2/8 2/12

Dos 2/8 7/12

Tres 4/8 3/12


Atributos sin valores

• Si el ejemplo a clasificar no tiene un atributo, simplemente se

omite.

– Ej.: (salario=poco, cliente=si, edad=?, hijos=3)

• Si hay faltas en la muestra de entrenamiento, no cuentan en la

estimación de probabilidades de ese atributo

)Xi(p/0375.0)Xi(p/20/8*8/4*8/3*8/4

)X(p/)NO(p*)NO|tresh(p*)NO|sic(p*)NO|pocos(p

)X|NO(p

)Xi(p/0167.0)Xi(p/20/12*12/3*12/8*12/2

)X(p/)SI(p*)SI|tresh(p*)SI|sic(p*)SI|pocos(p

)X|SI(p

i

i

i

i


Faltas en atributo EDAD


Poco Sí Joven Uno NOMucho Si Joven Uno SIMucho Si Joven Uno SIPoco Si ? Uno NO

Mucho Si ? Dos SIPoco Si ? Dos NO

Mucho Si ? Dos SIMucho Si Adulto Dos SIPoco No Adulto Dos NO

Mucho Si Adulto Dos SIMedio No Adulto Tres NOMucho Si Adulto Dos SIMedio Si Adulto Dos SIMedio No Adulto Tres NOMedio No Adulto Dos SIMucho No Mayor Tres NOPoco No Mayor Tres SIPoco No Mayor Tres SI

Mucho No Mayor Tres NOMucho No Mayor Tres SI

Salario

Crédito No Sí

Poco 4/8 2/12

Mucho 2/8 8/12

Medio 2/8 2/12

ClienteCrédito No Sí

Sí 3/8 8/12

No 5/8 4/12

EdadCrédito No Sí

Joven 1/6 2/10

Adulto 3/6 5/10

Mayor 2/6 3/10

p(SI) = 12/20

p(NO) = 8/20

Hijos

Crédito No Sí

Uno 2/8 2/12

Dos 2/8 7/12

Tres 4/8 3/12


Atributos no representados.

Laplace • Problema: con muestra poco representativa, puede ocurrir que

en alguna clase, un valor de atributo no aparezca: p(Ai=Vj|Ck)=0

– Cualquier ejemplo X con Ai=Vj generará P(Ck|X)=0,

independientemente de los otros atributos!

• Se suele modificar la estimación de las probabilidades a priori

con un factor que elimina los ceros.

– Ej.: P(Edad|Crédito=NO)=

– Ley :

– A veces simplemente se inicializan las cuentas a 1 en vez de 0:

8

2:Mayor,

8

3:Adulto,

8

3:Joven

8

3/2:Mayor,

8

3/3:Adulto,

8

3/3:Joven

38

12:Mayor,

38

13:Adulto,

38

13:Joven


Atributos mixtos

• Independencia de atributos (“Naive Bayes”)

– Atributos discretos: probabilidades a priori con cada clase Ck

– Atributos continuos: densidades de clase Ck: normales de parámetros

k, k

)C|VA(p*...*)C|VA(p*)C|VA(p)C|X(p kFFk22k11ki

k

jikkji

C clase de jemplose de ºn

VAcon C clase de jemplose de ºn)C|VA(p

2ik

2ikj

ikkjiAkji

)V(

2

1exp

2

1)C|V(f)C|VA(p


Ejemplo con atributos mixtos


525 Sí Joven 1 NO 2000 Si Joven 1 SI 2500 Si Joven 1 SI 470 Si Joven 1 NO

3000 Si Joven 2 SI 510 Si Joven 2 NO

2800 Si Adulto 2 SI 2700 Si Adulto 2 SI 550 No Adulto 2 NO

2600 Si Adulto 2 SI 1100 No Adulto 3 NO 2300 Si Adulto 2 SI 1200 Si Adulto 2 SI 900 No Adulto 3 NO 800 No Adulto 2 SI 800 No Mayor 3 NO

1300 No Mayor 3 SI 1100 No Mayor 3 SI 1000 No Mayor 3 NO 4000 No Mayor 3 SI

p(SI) = 12/20

p(NO) = 8/20

HijosCrédito No Sí

Media 2.25 2.08

Desv Estándar 0.89 0.67

Edad

Crédito No Sí

Joven 3/8 3/12

Adulto 3/8 6/12

Mayor 2/8 3/12

Cliente

Crédito No Sí

Sí 3/8 8/12

No 5/8 4/12

SalarioCrédito No Sí

Media 732 2192

Desv Estándar 249 942


Ejemplo con atributos mixtos

• Ej.: (salario=700, cliente=si, edad=adulto, hijos=3)

)Xi(p/5e81.2

)X(P/1*20/8*89.0

)25.23(

2

1exp

89.02

1*8/3*8/3*

249

)732700(

2

1exp

2492

1

)X(p/)NO(p*)NO|3h(f*)NO|adultoe(p*)NO|sic(p*)NO|700s(f

)X|NO(p

)Xi(p/6e61.5

)X(P/1*20/12*67.0

)08.23(

2

1exp

67.02

1*12/6*12/8*

942

)2192700(

2

1exp

9422

1

)X(p/)SI(p*)SI|3h(f*)SI|adultoe(p*)SI|sic(p*)SI|700s(f

)X|SI(p

i2

2

2

2

iHS

i

i2

2

2

2

iHS

i


• MAP proporciona clasificación con mínima prob. de Error

– Coste de decisión : prob. Error total=

• Con frecuencia los costes son asimétricos, y unos errores son más

graves que otros. Matriz de costes

• Costes de cada decisión. Criterio de mínimo coste medio: dada una

decisión, promedio los costes de cada equivocación y su coste:

Clasificación con costes

)X|C(P1 i

X|Di

0cc

c0c

cc0

3231

2321

1312Clase

real

Clasificado como

)X|C(pc)X|C(pc)X|D(tecos



2231133

3321122

3312211


-30 -20 -10 0 10 20 30 40 50-50

-40

-30

-20

-10

0

10

20

30

-30 -20 -10 0 10 20 30 40 50-50

-40

-30

-20

-10

0

10

20

30

• Clasificación de setas con dos atributos, (X, Y) y tres categorías:

Venenosa, Mal sabor, comestible: {V, MS, C}

Ejemplo de clasificación con costes

011

1001

100010000Clase

real

Clasificado como

V MS C

V

MS

C

5145

4551C;2020:MS

7140

4071C;55:C

7150

5071C;55:V

3t

3

2t

2

1t

1

V

C

MS

V

C

MS

Mínimo

error Mínimo

coste

Jesús García Herrero CLASIFICADORES...

Documents

Transcript of Jesús García Herrero CLASIFICADORES...