Tarea1

4
x ( x T Ax ) x T Ax = h x 1 x 2 ... x n i a 11 a 12 ... a 1n a 21 a 22 ... a 2n a n1 a n2 ... a nn x 1 x 2 x n x T Ax =(a 11 x 1 + a 21 x 2 + ··· + a n1 x n ) x 1 +(a 12 x 1 + a 22 x 2 + ··· + a n2 x n ) x 2 + ... +(a 1n x 1 + a 2n x 2 + ··· + a nn x n ) x n x ( x T Ax ) = 2a 11 x 1 +(a 21 + a 12 ) x 2 + ··· +(a n1 + a 1n ) x n (a 21 + a 12 ) x 1 +2a 22 x 2 + ··· +(a n2 + a 2n ) x n (a n1 + a 1n ) x 1 +(a n2 + a 2n ) x 2 + ··· +2a nn x n x ( x T Ax ) = a 11 a 12 ... a 1n a 21 a 22 ... a 2n a n1 a n2 ... a nn + a 11 a 21 ... a n1 a 12 a 22 ... a n2 a 1n a 2n ... a nn x 1 x 2 x n x ( x T Ax ) = ( A + A T ) x A = A T x ( x T Ax ) =2Ax

Transcript of Tarea1

Page 1: Tarea1

Tarea Nro 1

IPD-440: Aprendizaje de Máquinas

Oswaldo Aníbal Menéndez Granizo

02 de Abril de 2015

Problema 1.1 Encontrar una expresón general para el cálculo del gradiente de:

∇x

(xTAx

)(1)

xTAx =[x1 x2 . . . xn

]a11 a12 . . . a1n

a21 a22 . . . a2n...

.... . .

...

an1 an2 . . . ann

x1

x2

...

xn

(2)

Resolviendo la multiplicación de matrices se tiene:

xTAx = (a11x1 + a21x2 + · · ·+ an1xn)x1 + (a12x1 + a22x2 + · · ·+ an2xn)x2 + . . . (3)

+(a1nx1 + a2nx2 + · · ·+ annxn)xn

Aplicando la de�nición de Gradiente se obtiene:

∇x

(xTAx

)=

2a11x1 + (a21 + a12)x2 + · · ·+ (an1 + a1n)xn

(a21 + a12)x1 + 2a22x2 + · · ·+ (an2 + a2n)xn

...

(an1 + a1n)x1 + (an2 + a2n)x2 + · · ·+ 2annxn

(4)

De donde se nota que la matriz anterior puede ser representada como:

∇x

(xTAx

)=

a11 a12 . . . a1n

a21 a22 . . . a2n...

.... . .

...

an1 an2 . . . ann

+

a11 a21 . . . an1

a12 a22 . . . an2...

.... . .

...

a1n a2n . . . ann

x1

x2

...

xn

(5)

De donde se tiene �nalmente la siguiente expresión:

∇x

(xTAx

)=(A+AT

)x (6)

Para una matriz simétrica se tiene que se cumple que A = AT de donde se tiene:

∇x

(xTAx

)= 2Ax (7)

1

Page 2: Tarea1

Problema 1.2 Encontrar una expresón general para el Hessiano de:

∇x2(xTAx

)(8)

Aplicando la de�nición de Hessiano a la expresión (3) se tiene:

∂2f (x)

∂x12

=∂

∂x1(2a11x1 + (a21 + a12)x2 + · · ·+ (a1n + an1)xn) = 2a11 (9)

∂2f (x)

∂x1∂x2=

∂x1((a21 + a12)x1 + 2a22x2 + · · ·+ (a2n + an2)xn) = a21 + a12 (10)

∂2f (x)

∂x2∂x1=

∂x2(2a11x1 + (a21 + a12)x2 + · · ·+ (a1n + an1)xn) = a21 + a12 (11)

∂2f (x)

∂x22

=∂

∂x2((a21 + a12)x1 + 2a22x2 + · · ·+ (a2n + an2)xn) = 2a22 (12)

De manera general derivando para el término xn se tiene las siguientes expresiones:

∂2f (x)

∂xn2

=∂

∂xn((an1 + a1n)x1 + (a2n + an2)x2 + · · ·+ 2annxn) = 2ann (13)

∂2f (x)

∂x1∂xn=

∂x1((an1 + a1n)x1 + (a2n + an2)x2 + · · ·+ 2annxn) = an1 + a1n (14)

∂2f (x)

∂xn∂x1=

∂xn(2a11x1 + (a21 + a12)x2 + · · ·+ (a1n + an1)xn) = an1 + a1n (15)

De donde se obtiene que el Hessiano viene dado por:

∇x2(xTAx

)=

2a11 a21 + a12 . . . an1 + a1n

a21 + a12 2a22 . . . an2 + a2n...

.... . .

...

an1 + a1n an2 + a2n . . . 2ann

(16)

La expresión anterior puede ser escrita de la siguiente manera:

∇x2(xTAx

)=

a11 a12 . . . a1n

a21 a22 . . . a2n...

.... . .

...

an1 an2 . . . ann

+

a11 a21 . . . an1

a12 a22 . . . an2...

.... . .

...

a1n a2n . . . ann

(17)

De donde se tiene �nalmente la siguiete expresión:

∇x2(xTAx

)= A+AT (18)

Para una matriz simétrica se tiene que se cumple que A = AT de donde se tiene:

∇x2(xTAx

)= 2A (19)

2

Page 3: Tarea1

Problema 1.3.- De acuerdo a la ecuación caracterísitica obtenida en clases relacionada con los

vectores propios de la matriz de convarianza, obtenga una expresión para la proyección de los

datos X en un espacio de orden menor generado por los vectores propios donde este la mayor

parte de la varianza.

El objetivo de PCA es reducir el número de variables de los datos de entrada consevando la mayor cantidad de

información posible. El funcionamiento de PCA está enfocado a encontrar, a partir de un conjunto de datos de

entrada X con m variables, un vector de pesos u1 capaz de proyectar este conjunto de datos sobre la dirección

de máxima varianza de X, una vez que se encuentra u1, se busca encontrar un vector u2 que sea ortogonal a

u1 que retenga la máxima varianza posible, se continua así hasta encontrar el p-esimo elemento up ortogonales

entre sí. La matriz de covarianzas por de�nición es una matriz simétrica por el teorema espectral se garantiza

que cualquier matriz cuadrada simétrica con coe�cientes reales es ortogonalmente diagonalizable por lo que

todos sus autovectores son linealmente independientes y ortogonales entre sí, lo que garantiza que la proyección

de los datos sobre el espacio generado por lo p autovectores sea la suma de la proyección sobre cada vector de

la base dada en otras palabras:

Sea V un espacio vectorial de dimensión n <∞ y S = {s1, . . . , sk} un subconjuto l.i de dicho espacio, donde si

son los autovectores de la matriz de convarianza. Dado un vector v ∈ V , la proyección de v sobre el (sub)espacio

generado por S es igual a la suma de sus proyecciones sobre los elementos de S si y solo si los vectores de S son

ortogonales, es decir:

proySpan Sv = proys1v + · · ·+ proyskv (20)

Demostración Necesidad ⇒: Se puede expresar la condicón planteada de la siguiente manera

A ≡{s1 s2 . . . sn

}(21)

El Span de S es el espacio columnas de A (C (A)), además S genera el subespacio y todos sus elementos deben

ser l.i por lo que es una base. Se obtiene la proyección de v en el Span de S dado por:

proySpan Sv =[s1 s2 . . . sn

]

s1

T

s2T

...

s2T

[s1 s2 . . . sn

]

−1 s1

T

s2T

...

snT

v (22)

proySpan Sv =[s1 s2 . . . sn

]

s1T s1 s1

T s2 · · · s1T sn

s2T s1 s2

T s2 · · · s2T sn

......

. . ....

snT s1 sn

T s2 · · · snT sn

−1 s1

T

s2T

...

snT

v (23)

Ya que todos los vectores de S son ortogonales entre sí se tiene que:

〈si, sj〉 = siT sj = 0 i 6= j (24)

3

Page 4: Tarea1

Aplicando este principio a (23) se tiene:

proySpan Sv =[s1 s2 . . . sn

]

s1T s1 0 · · · 0

0 s2T s2 · · · 0

......

. . ....

0 0 · · · snT sn

−1 s1

T

s2T

...

snT

v (25)

proySpan Sv =[s1 s2 . . . sn

]

(s1

T s1)−1

0 · · · 0

0(s2

T s2)−1 · · · 0

......

. . ....

0 0 · · ·(sn

T sn)−1

s1

T

s2T

...

snT

(26)

proySpan Sv = s1(s1

T s1)−1

s1T + s2

(s2

T s2)−1

s2T + · · ·+ sn

(sn

T sn)−1

snT (27)

proySpan Sv = proys1v + proys2v + · · ·+ proyskv (28)

Demostración Su�ciencia⇐: Se puede expresar a la condición planteada de la siguiente manera:

proySpan Sv − proys1v = proys2v + · · ·+ proyskv (29)

De�niendo a Ps1 ≡ proySpan Sv − proys1v se tiene:

Ps1 = proys2v + proys3v + · · ·+ proyskv (30)

Si nosotros analizamos a la proyección de v como un nuevo vector a que queremos proyectar en un subespacio

más pequeño se puede observa que Ps1 = Span{s1}⊥ pues represemta la parte del vector que no pertenece a s1.

De manera similar si se realiza el mismo procedimiento con los otros vectores se puede observar que para cada

vector Psi donde i = 1, 2, ..., k viene a ser el complemento ortogonal del Span de s1, por lo que se determina

que cada para de vectores de S son ortogonales entre sí.

4