Análisis de Datos - CINVESTAV

Análisis de Datos

Clasi�cadores lineales

Discriminante lineal de Fisher

Dr. Wilfrido Gómez Flores

Introducción

• Extracción de características � enfoque para la reducción de

dimensionalidad mediante una función de mapeo.

• Busca mejorar la representación de los datos preservando su es-

tructura subyacente.

Dado un espacio de características X ∈ Rp, encontrar una función

de mapeo f : Rp → Rq, con p > q, tal que el espacio transformado

Z ∈ Rq, preserve la información relevante en X.

1/29 Discriminante lineal de Fisher AD-11

Introducción

Análisis de componentes principales (PCA): técnica no supervisada que proyectalos datos en un espacio de baja dimensionalidad con máxima varianza. No nece-sariamente estos componentes son útiles para discriminar entre diferentes clases;las direcciones que descarta PCA, pueden ser exactamente las direcciones que senecesitan para distinguir entre clases. Se requiere encontrar una proyección quemejore la separabilidad inter-clase en un espacio de baja dimensionalidad.


Proyecciones

• Combinación lineal de los elementos del

vector xi:

zi = wTxi, ∀i, (1)

donde w es un vector de proyecciones que

pasa por el origen.

• La dirección de w es importante y no su

magnitud.

• Análisis lineal discriminante (LDA): de-

termina la combinación lineal de variables

que maximiza la relación entre las varian-

zas inter- e intra-clase.

0 0.2 0.4 0.6 0.8 1

0

0.2

0.4

0.6

0.8

1

Muestras x1, . . . ,xn en R2. zi es la pro-yección ortogonal de su correspondientexi sobre una recta con la misma direc-ción de w.


Proyecciones

Un conjunto de puntos de clases linealmente separables son proyectados sobre unarecta en la dirección del vector w para obtener zi. Se muestra el efecto de variarla dirección de w: a la izquierda se obtiene una mala separación entre las clasesproyectadas, mientras que a la derecha se obtiene una separación óptima entrelas clases proyectadas. Optimizar la proyección signi�ca que se debe encontrar elvector w que maximice la separación entre las clases proyectadas.


LDA para dos clases

• Sea z ∈ R un punto proyectado a partir de una muestra x ∈ Rd

que pertenece a la clase ωi, con i = 1, 2.

• Vector de medias para la clase ωi con ni elementos en Rd:

mi =1

ni

ni∑j=1

xj . (2)

• Valor medio proyectado:

mi = wTmi. (3)

• Maximizar la distancia entre las medias proyectadas para encontrar

el vector de proyecciones óptimo:

J(w) = (m1 −m2)2. (4)


LDA para dos clases

La función de costo en (4) solo maximiza la dispersión inter-clase, de modoque la proyección de los datos se hace sobre los ejes coordenados del espaciode características. La máxima separación entre m1 y m2 se encuentra en laproyección sobre el eje x1; sin embargo, las distribuciones proyectadas presentanmayor traslape que las proyecciones sobre el eje x2, la cual tiene una menordistancia inter-clase.


LDA para dos clases

• Dispersión intra-clase � permite encontrar una proyección `rota-

da' para reducir el traslape entre las distribuciones proyectadas.

• La función de costo en (4) se reescribe como:

J(w) =(m1 −m2)2

s21 + s2

2

, (5)

donde la varianza proyectada de la clase ωi es

s2i =

1

ni − 1

ni∑j=1

(zj −mi)2, i = 1, 2. (6)

• El vector w está de�nido en el espacio original de los datos.


LDA para dos clases

• Varianza de los datos proyectados de la clase ωi:

s2i = wTSiw, (7)

donde

Si =1

ni − 1

ni∑j=1

(xj −mi)(xj −mi)T .

• Dispersión intra-clase en el espacio original:

s21 + s2

2 = wTSWw, (8)

donde

SW =(n1 − 1)S1 + (n2 − 1)S2

n1 + n2 − 2.


LDA para dos clases

• Dispersión inter-clase en el espacio original:

(m1 −m2)2 = wTSBw, (9)

donde

SB = (m1 −m2)(m1 −m2)T .

• Sustituyendo (8) y (9) en (5) se obtiene el discriminante lineal

de Fisher en el espacio original:

J(w) =wTSBw

wTSWw. (10)

• Maximizar J(w) para obtener la proyección óptima con máxima

separación inter-clase (i.e., distribuciones lejanas) y mínima dis-

persión intra-clase (i.e., distribuciones compactas).


LDA para dos clases

• Derivar J(w) con respecto de w e igualar a cero:

∂J(w)

∂w= SBw − J(w)SWw = 0, (11)

lo cual implica que

SBw = J(w)SWw. (12)

• Resolviendo para w se obtiene el problema generalizado de va-

lores propios:

S−1W SBw = λw, (13)

donde λ ≡ J(w) es considerado como un factor de escala.


LDA para dos clases

• Resolviendo el problema en (13) se obtiene el vector de pesos

óptimo:

w∗ = arg maxw

(wTSBw

wTSWw

). (14)

• En el caso particular de dos clases, no es necesario resolver (13);

los vectores SBw y m1 −m2 tienen la misma pendiente.

• El factor λ para w no es importante, sino solo su orientación.

• Por tanto, se obtiene una solución directa que maximiza J(w):

w∗ = S−1W (m1 −m2). (15)


LDA para dos clases

Se busca un vector de proyección óptimo donde los datos de una misma clase seanproyectados de manera compacta y al mismo tiempo que las medias proyectadasde ambas clases se encuentren lo más distante posible.


LDA para dos clases

Dos clases:

ω1 : [4, 2]T , [2, 4]T , [2, 3]T , [3, 6]T , [4, 4]T

ω2 : [9, 10]T , [6, 8]T , [9, 5]T , [8, 7]T , [10, 8]T

Vector de proyección óptimo:

w =

S−1W︷︸︸︷[

0.60 0.03

0.03 0.36

] m1−m2︷︸︸︷[3.0

3.8− 8.4

7.6

]= [−3.354,−1.530]T

2 4 6 8 10

2

4

6

8

10


LDA multiclase• La generalización para c clases involucra c − 1 funciones lineales

para realizar la proyección Rd → Rc−1, asumiendo que d ≥ c.• Generalización de la matriz de dispersión intra-clase es:

SW =1∑c

i=1 (ni − 1)

c∑i=1

(ni − 1)Si, (16)

donde Si es la matriz de covarianza de la clase ωi.

• Generalización de la matriz de dispersión inter-clase:

SB =

c∑i=1

ni(mi −m)(mi −m)T , (17)

donde m = 1n

∑ni=1 xi es el vector de medias total.


LDA multiclase• Generalización del criterio de Fisher:

J(W ) =

∣∣W TSBW∣∣

|W TSWW |, (18)

donde W = [w1, . . . ,wc−1] es una matriz de tamaño d× (c− 1).

• Si SW es no singular, entonces W se encuentra resolviendo el

problema de autovalores convencional:

SBwi = λiSWwi, i = 1, . . . , c− 1. (19)

• Proyección de un punto x ∈ Rd a un espacio Rc−1:

z = W Tx (20)

donde z = [z1, . . . , zc−1]T .


LDA multiclase

Distribuciones 3D con tres clases proyectadas sobre un espacio 2D, descrito porlos vectores normales W1 y W2, donde W1 obtiene la separación óptima entrelas tres clases.


Limitaciones del LDA

-1-0.5

0

-1

-1

-0.5

0.5

0

-0.5

0.5

1

0 0.5 11-1 -0.5 0 0.5 1

-1

-0.5

0

0.5

1

Izquierda: Conjunto de datos con tres clases en R3. Derecha: Proyección conLDA sobre un espacio en R2. LDA es un método paramétrico; por tanto, asumeque los patrones presentan distribución normal. Si las distribuciones son signi�-cativamente no-Gaussianas, entonces no preservará ninguna estructura complejade los datos.


Limitaciones del LDA

-1-0.5

0

-1

-1

-0.5

0.5

0

-0.5

0.5

1

0 0.5 11-1 -0.5 0 0.5 1

-1

-0.5

0

0.5

1

Izquierda: Conjunto de datos con tres clases en R3. Derecha: Proyección conLDA sobre un espacio en R2. LDA fallará cuando la información discriminanteno se encuentra en la media sino en la varianza de los datos.


LDA con kernel

-0.5 0 0.5

-0.5

0

0.5

Izquierda: Conjunto de datos con dos clases en R2. La información discriminan-te se encuentra en la varianza y no en la media. Derecha: LDA realizará unaproyección donde la distribución de las clases están completamente traslapadas.


LDA con kernel

0

0.5

0.25

0.25

0.50

0.5

0.25-0.25

-0.5 0

Izquierda: Conjunto de datos con dos clases mapeado explícitamente a R3 conla función no lineal Φ : (x1, x2)→

(x21,√

2x1x2, x22

). Ahora las clases son lineal-

mente separables. Derecha: LDA proyecta los datos mapeado explícitamente a R3

sobre una recta, generando distribuciones de clases prácticamente sin traslape.


LDA con kernel

• Criterio de Fisher en términos de una función de mapeo explícito Φ:

J(w) =wTSΦ

Bw

wTSΦWw

, (21)

donde las matrices de dispersión SΦB y SΦ

W y el vector de medias

mΦi se encuentran en el espacio de alta dimensionalidad:

SΦB = (mΦ

1 −mΦ2 )(mΦ

1 −mΦ2 )T ,

SΦW =

∑i=1,2

ni∑j=1

(Φ(xj)−mΦi )(Φ(xj)−mΦ

i )T,

mΦi =

1

ni

ni∑j=1

Φ(xj), i = 1, 2.

• Encontrar w en el espacio de Φ puede ser inviable.


LDA con kernel

• Formulación de J(w) en términos de productos escalares de los

patrones de entrenamiento.

• Truco del kernel : mapeo implícito con K(a,b) = Φ(a)TΦ(b),

donde a y b son vectores en el espacio original.

• Proyección de un patrón arbitrario xt sobre el vector w:

wTΦ(xt) =

n∑i=1

αiK(xi,xt),

= αTK(X,xt), (22)

donde α = [α1, . . . , αn]T es el vector de variables duales,K(·, ·) esuna función kernel, y X es la matriz de patrones de entrenamiento

de tamaño d× n.


LDA con kernel

• A partir de (22), el criterio de Fisher se reescribe como:

J(α) =αTSK

B α

αTSKWα

, (23)

donde SKB y SK

W son matrices de dispersión mapeadas por una

función kernel.

• Maximizar J(α) consiste en encontrar el vector óptimo α de va-

riable duales.


LDA con kernel

Una solución directa está dada por:

α = (BK(X,X) + λI)−1yT , (24)

donde y = [y1, . . . , yn] son las salidas deseadas con yi ∈ {−1,+1}, λes un parámetro de regularización, I es la matiz identidad de tamaño

n× n, y la matriz B = B0 −B1 −B2, donde

B0ii =

2n2

n si yi = +1,

2n1

n si yi = −1,B1

ij =

2n2

n·n1si yi = yj = +1,

0 otro caso,

B2ij =

2n1

n·n2si yi = yj = −1,

0 otro caso,para i, j = 1, . . . , n,

donde n1 y n2 son el número de muestras en las clases ω1 = +1 y

ω2 = −1, respectivamente


LDA con kernel

-0.5 0 0.5

-0.5

0

0.5

Izquierda: conjunto de datos en R2 no linealmente separable. Derecha: función dedensidad de los datos proyectados mediante LDA con kernel Gaussiano. Nóteseque en el espacio proyectado a 1D, las clases son linealmente separables.


Clasi�cación basada en LDA

• Caso de dos clases � Función discriminante ortogonal al vector

de proyecciones w y equidistante a las medias de cada clase:

g(xt) =[xt − 1

2(m1 + m2)]TS−1W (m1 −m2). (25)

• Regla de clasi�cación binaria:

Decidir

ω1 si g(xt) > 0,

ω2 otro caso.(26)

• Caso multiclase � La clasi�cación se realiza en el espacio proyec-

tado de Rd → Rc−1 utilizando cualquier técnica de clasi�cación

multiclase.



0 0.2 0.4 0.6 0.8 1

0

0.2

0.4

0.6

0.8

1

(a)

-1 -0.5 0 0.5 1 1.5-2

0

2

4

6

setosa

versicolor

virginica

(b)

(a) Conjunto de datos con dos clases separados por una función lineal generadacon el vector de proyecciones w, el cual es paralelo al vector m1−m2. (b) Con-junto de datos Iris mapeado de R4 → R2, en donde un clasi�cador de mínimadistancia Mahalanobis genera tres fronteras de decisión lineales.



• Cuando el problema de clasi�cación no pueden ser resuelto usando

funciones lineales directamente sobre el espacio de características

original, entonces se puede utilizar el LDA con kernel.

• Función discriminante:

g(xt) = αTK(X,xt)−αT 1

2K(X,X)e, (27)

donde e = [e1, . . . , en]T es un vector cuyo i-ésimo elemento es

ei =

1/n1 si yi = +1,

1/n2 si yi = −1,para i = 1, . . . , n. (28)

• Regla de clasi�cación binaria � Es la misma de�nida en (26).



-0.5 0 0.5

-0.5

0

0.5

(a)

0 0.25 0.5 0.75 1

0

0.25

0.5

0.75

1

(b)

Conjuntos de datos no linealmente separables clasi�cados con LDA kernel (λ =1×10−9):(a) kernel Gaussiano con γ = 1/10, y (b) kernel polinomial de segundoorden.


Análisis de Datos - CINVESTAV

Documents

Transcript of Análisis de Datos - CINVESTAV