Análisis de Datos - CINVESTAV
Transcript of Análisis de Datos - CINVESTAV
Análisis de Datos
Clasi�cadores lineales
Discriminante lineal de Fisher
Dr. Wilfrido Gómez Flores
Introducción
• Extracción de características � enfoque para la reducción de
dimensionalidad mediante una función de mapeo.
• Busca mejorar la representación de los datos preservando su es-
tructura subyacente.
Dado un espacio de características X ∈ Rp, encontrar una función
de mapeo f : Rp → Rq, con p > q, tal que el espacio transformado
Z ∈ Rq, preserve la información relevante en X.
1/29 Discriminante lineal de Fisher AD-11
Introducción
Análisis de componentes principales (PCA): técnica no supervisada que proyectalos datos en un espacio de baja dimensionalidad con máxima varianza. No nece-sariamente estos componentes son útiles para discriminar entre diferentes clases;las direcciones que descarta PCA, pueden ser exactamente las direcciones que senecesitan para distinguir entre clases. Se requiere encontrar una proyección quemejore la separabilidad inter-clase en un espacio de baja dimensionalidad.
2/29 Discriminante lineal de Fisher AD-11
Proyecciones
• Combinación lineal de los elementos del
vector xi:
zi = wTxi, ∀i, (1)
donde w es un vector de proyecciones que
pasa por el origen.
• La dirección de w es importante y no su
magnitud.
• Análisis lineal discriminante (LDA): de-
termina la combinación lineal de variables
que maximiza la relación entre las varian-
zas inter- e intra-clase.
0 0.2 0.4 0.6 0.8 1
0
0.2
0.4
0.6
0.8
1
Muestras x1, . . . ,xn en R2. zi es la pro-yección ortogonal de su correspondientexi sobre una recta con la misma direc-ción de w.
3/29 Discriminante lineal de Fisher AD-11
Proyecciones
Un conjunto de puntos de clases linealmente separables son proyectados sobre unarecta en la dirección del vector w para obtener zi. Se muestra el efecto de variarla dirección de w: a la izquierda se obtiene una mala separación entre las clasesproyectadas, mientras que a la derecha se obtiene una separación óptima entrelas clases proyectadas. Optimizar la proyección signi�ca que se debe encontrar elvector w que maximice la separación entre las clases proyectadas.
4/29 Discriminante lineal de Fisher AD-11
LDA para dos clases
• Sea z ∈ R un punto proyectado a partir de una muestra x ∈ Rd
que pertenece a la clase ωi, con i = 1, 2.
• Vector de medias para la clase ωi con ni elementos en Rd:
mi =1
ni
ni∑j=1
xj . (2)
• Valor medio proyectado:
mi = wTmi. (3)
• Maximizar la distancia entre las medias proyectadas para encontrar
el vector de proyecciones óptimo:
J(w) = (m1 −m2)2. (4)
5/29 Discriminante lineal de Fisher AD-11
LDA para dos clases
La función de costo en (4) solo maximiza la dispersión inter-clase, de modoque la proyección de los datos se hace sobre los ejes coordenados del espaciode características. La máxima separación entre m1 y m2 se encuentra en laproyección sobre el eje x1; sin embargo, las distribuciones proyectadas presentanmayor traslape que las proyecciones sobre el eje x2, la cual tiene una menordistancia inter-clase.
6/29 Discriminante lineal de Fisher AD-11
LDA para dos clases
• Dispersión intra-clase � permite encontrar una proyección `rota-
da' para reducir el traslape entre las distribuciones proyectadas.
• La función de costo en (4) se reescribe como:
J(w) =(m1 −m2)2
s21 + s2
2
, (5)
donde la varianza proyectada de la clase ωi es
s2i =
1
ni − 1
ni∑j=1
(zj −mi)2, i = 1, 2. (6)
• El vector w está de�nido en el espacio original de los datos.
7/29 Discriminante lineal de Fisher AD-11
LDA para dos clases
• Varianza de los datos proyectados de la clase ωi:
s2i = wTSiw, (7)
donde
Si =1
ni − 1
ni∑j=1
(xj −mi)(xj −mi)T .
• Dispersión intra-clase en el espacio original:
s21 + s2
2 = wTSWw, (8)
donde
SW =(n1 − 1)S1 + (n2 − 1)S2
n1 + n2 − 2.
8/29 Discriminante lineal de Fisher AD-11
LDA para dos clases
• Dispersión inter-clase en el espacio original:
(m1 −m2)2 = wTSBw, (9)
donde
SB = (m1 −m2)(m1 −m2)T .
• Sustituyendo (8) y (9) en (5) se obtiene el discriminante lineal
de Fisher en el espacio original:
J(w) =wTSBw
wTSWw. (10)
• Maximizar J(w) para obtener la proyección óptima con máxima
separación inter-clase (i.e., distribuciones lejanas) y mínima dis-
persión intra-clase (i.e., distribuciones compactas).
9/29 Discriminante lineal de Fisher AD-11
LDA para dos clases
• Derivar J(w) con respecto de w e igualar a cero:
∂J(w)
∂w= SBw − J(w)SWw = 0, (11)
lo cual implica que
SBw = J(w)SWw. (12)
• Resolviendo para w se obtiene el problema generalizado de va-
lores propios:
S−1W SBw = λw, (13)
donde λ ≡ J(w) es considerado como un factor de escala.
10/29 Discriminante lineal de Fisher AD-11
LDA para dos clases
• Resolviendo el problema en (13) se obtiene el vector de pesos
óptimo:
w∗ = arg maxw
(wTSBw
wTSWw
). (14)
• En el caso particular de dos clases, no es necesario resolver (13);
los vectores SBw y m1 −m2 tienen la misma pendiente.
• El factor λ para w no es importante, sino solo su orientación.
• Por tanto, se obtiene una solución directa que maximiza J(w):
w∗ = S−1W (m1 −m2). (15)
11/29 Discriminante lineal de Fisher AD-11
LDA para dos clases
Se busca un vector de proyección óptimo donde los datos de una misma clase seanproyectados de manera compacta y al mismo tiempo que las medias proyectadasde ambas clases se encuentren lo más distante posible.
12/29 Discriminante lineal de Fisher AD-11
LDA para dos clases
Dos clases:
ω1 : [4, 2]T , [2, 4]T , [2, 3]T , [3, 6]T , [4, 4]T
ω2 : [9, 10]T , [6, 8]T , [9, 5]T , [8, 7]T , [10, 8]T
Vector de proyección óptimo:
w =
S−1W︷ ︸︸ ︷[
0.60 0.03
0.03 0.36
] m1−m2︷ ︸︸ ︷[3.0
3.8− 8.4
7.6
]= [−3.354,−1.530]T
2 4 6 8 10
2
4
6
8
10
13/29 Discriminante lineal de Fisher AD-11
LDA multiclase• La generalización para c clases involucra c − 1 funciones lineales
para realizar la proyección Rd → Rc−1, asumiendo que d ≥ c.• Generalización de la matriz de dispersión intra-clase es:
SW =1∑c
i=1 (ni − 1)
c∑i=1
(ni − 1)Si, (16)
donde Si es la matriz de covarianza de la clase ωi.
• Generalización de la matriz de dispersión inter-clase:
SB =
c∑i=1
ni(mi −m)(mi −m)T , (17)
donde m = 1n
∑ni=1 xi es el vector de medias total.
14/29 Discriminante lineal de Fisher AD-11
LDA multiclase• Generalización del criterio de Fisher:
J(W ) =
∣∣W TSBW∣∣
|W TSWW |, (18)
donde W = [w1, . . . ,wc−1] es una matriz de tamaño d× (c− 1).
• Si SW es no singular, entonces W se encuentra resolviendo el
problema de autovalores convencional:
SBwi = λiSWwi, i = 1, . . . , c− 1. (19)
• Proyección de un punto x ∈ Rd a un espacio Rc−1:
z = W Tx (20)
donde z = [z1, . . . , zc−1]T .
15/29 Discriminante lineal de Fisher AD-11
LDA multiclase
Distribuciones 3D con tres clases proyectadas sobre un espacio 2D, descrito porlos vectores normales W1 y W2, donde W1 obtiene la separación óptima entrelas tres clases.
16/29 Discriminante lineal de Fisher AD-11
Limitaciones del LDA
-1-0.5
0
-1
-1
-0.5
0.5
0
-0.5
0.5
1
0 0.5 11-1 -0.5 0 0.5 1
-1
-0.5
0
0.5
1
Izquierda: Conjunto de datos con tres clases en R3. Derecha: Proyección conLDA sobre un espacio en R2. LDA es un método paramétrico; por tanto, asumeque los patrones presentan distribución normal. Si las distribuciones son signi�-cativamente no-Gaussianas, entonces no preservará ninguna estructura complejade los datos.
17/29 Discriminante lineal de Fisher AD-11
Limitaciones del LDA
-1-0.5
0
-1
-1
-0.5
0.5
0
-0.5
0.5
1
0 0.5 11-1 -0.5 0 0.5 1
-1
-0.5
0
0.5
1
Izquierda: Conjunto de datos con tres clases en R3. Derecha: Proyección conLDA sobre un espacio en R2. LDA fallará cuando la información discriminanteno se encuentra en la media sino en la varianza de los datos.
18/29 Discriminante lineal de Fisher AD-11
LDA con kernel
-0.5 0 0.5
-0.5
0
0.5
Izquierda: Conjunto de datos con dos clases en R2. La información discriminan-te se encuentra en la varianza y no en la media. Derecha: LDA realizará unaproyección donde la distribución de las clases están completamente traslapadas.
19/29 Discriminante lineal de Fisher AD-11
LDA con kernel
0
0.5
0.25
0.25
0.50
0.5
0.25-0.25
-0.5 0
Izquierda: Conjunto de datos con dos clases mapeado explícitamente a R3 conla función no lineal Φ : (x1, x2)→
(x21,√
2x1x2, x22
). Ahora las clases son lineal-
mente separables. Derecha: LDA proyecta los datos mapeado explícitamente a R3
sobre una recta, generando distribuciones de clases prácticamente sin traslape.
20/29 Discriminante lineal de Fisher AD-11
LDA con kernel
• Criterio de Fisher en términos de una función de mapeo explícito Φ:
J(w) =wTSΦ
Bw
wTSΦWw
, (21)
donde las matrices de dispersión SΦB y SΦ
W y el vector de medias
mΦi se encuentran en el espacio de alta dimensionalidad:
SΦB = (mΦ
1 −mΦ2 )(mΦ
1 −mΦ2 )T ,
SΦW =
∑i=1,2
ni∑j=1
(Φ(xj)−mΦi )(Φ(xj)−mΦ
i )T,
mΦi =
1
ni
ni∑j=1
Φ(xj), i = 1, 2.
• Encontrar w en el espacio de Φ puede ser inviable.
21/29 Discriminante lineal de Fisher AD-11
LDA con kernel
• Formulación de J(w) en términos de productos escalares de los
patrones de entrenamiento.
• Truco del kernel : mapeo implícito con K(a,b) = Φ(a)TΦ(b),
donde a y b son vectores en el espacio original.
• Proyección de un patrón arbitrario xt sobre el vector w:
wTΦ(xt) =
n∑i=1
αiK(xi,xt),
= αTK(X,xt), (22)
donde α = [α1, . . . , αn]T es el vector de variables duales,K(·, ·) esuna función kernel, y X es la matriz de patrones de entrenamiento
de tamaño d× n.
22/29 Discriminante lineal de Fisher AD-11
LDA con kernel
• A partir de (22), el criterio de Fisher se reescribe como:
J(α) =αTSK
B α
αTSKWα
, (23)
donde SKB y SK
W son matrices de dispersión mapeadas por una
función kernel.
• Maximizar J(α) consiste en encontrar el vector óptimo α de va-
riable duales.
23/29 Discriminante lineal de Fisher AD-11
LDA con kernel
Una solución directa está dada por:
α = (BK(X,X) + λI)−1yT , (24)
donde y = [y1, . . . , yn] son las salidas deseadas con yi ∈ {−1,+1}, λes un parámetro de regularización, I es la matiz identidad de tamaño
n× n, y la matriz B = B0 −B1 −B2, donde
B0ii =
2n2
n si yi = +1,
2n1
n si yi = −1,B1
ij =
2n2
n·n1si yi = yj = +1,
0 otro caso,
B2ij =
2n1
n·n2si yi = yj = −1,
0 otro caso,para i, j = 1, . . . , n,
donde n1 y n2 son el número de muestras en las clases ω1 = +1 y
ω2 = −1, respectivamente
24/29 Discriminante lineal de Fisher AD-11
LDA con kernel
-0.5 0 0.5
-0.5
0
0.5
Izquierda: conjunto de datos en R2 no linealmente separable. Derecha: función dedensidad de los datos proyectados mediante LDA con kernel Gaussiano. Nóteseque en el espacio proyectado a 1D, las clases son linealmente separables.
25/29 Discriminante lineal de Fisher AD-11
Clasi�cación basada en LDA
• Caso de dos clases � Función discriminante ortogonal al vector
de proyecciones w y equidistante a las medias de cada clase:
g(xt) =[xt − 1
2(m1 + m2)]TS−1W (m1 −m2). (25)
• Regla de clasi�cación binaria:
Decidir
ω1 si g(xt) > 0,
ω2 otro caso.(26)
• Caso multiclase � La clasi�cación se realiza en el espacio proyec-
tado de Rd → Rc−1 utilizando cualquier técnica de clasi�cación
multiclase.
26/29 Discriminante lineal de Fisher AD-11
Clasi�cación basada en LDA
0 0.2 0.4 0.6 0.8 1
0
0.2
0.4
0.6
0.8
1
(a)
-1 -0.5 0 0.5 1 1.5-2
0
2
4
6
setosa
versicolor
virginica
(b)
(a) Conjunto de datos con dos clases separados por una función lineal generadacon el vector de proyecciones w, el cual es paralelo al vector m1−m2. (b) Con-junto de datos Iris mapeado de R4 → R2, en donde un clasi�cador de mínimadistancia Mahalanobis genera tres fronteras de decisión lineales.
27/29 Discriminante lineal de Fisher AD-11
Clasi�cación basada en LDA
• Cuando el problema de clasi�cación no pueden ser resuelto usando
funciones lineales directamente sobre el espacio de características
original, entonces se puede utilizar el LDA con kernel.
• Función discriminante:
g(xt) = αTK(X,xt)−αT 1
2K(X,X)e, (27)
donde e = [e1, . . . , en]T es un vector cuyo i-ésimo elemento es
ei =
1/n1 si yi = +1,
1/n2 si yi = −1,para i = 1, . . . , n. (28)
• Regla de clasi�cación binaria � Es la misma de�nida en (26).
28/29 Discriminante lineal de Fisher AD-11
Clasi�cación basada en LDA
-0.5 0 0.5
-0.5
0
0.5
(a)
0 0.25 0.5 0.75 1
0
0.25
0.5
0.75
1
(b)
Conjuntos de datos no linealmente separables clasi�cados con LDA kernel (λ =1×10−9):(a) kernel Gaussiano con γ = 1/10, y (b) kernel polinomial de segundoorden.
29/29 Discriminante lineal de Fisher AD-11