Brayan Apl

download Brayan Apl

of 21

description

aplikda

Transcript of Brayan Apl

Anlisis de Componentes Principales

ANLISIS DE COMPONENTES PRINCIPALES

Introduccin

El objetivo del Anlisis de Componentes Principales lo podemos plantear como: dadas las observaciones de n objetos para p variables, se pretende representar adecuadamente esta informacin con un nmero q < p de variables,

construidas como combinaciones lineales incorrelacionadas de las variables originales, que estn ordenadas en orden decreciente de importancia de acuerdo a la varianza. En el objetivo planteado se pueden destacar dos aspectos:

- Representar los datos en espacio de dimensin menor al generado por los datos y al que estos se ajusten lo mejor posibles. Puede entenderse entonces como la bsqueda del subespacio de mejor ajuste de la nube de puntos, en el sentido de los mnimos cuadrado, y por otro lado como la identificacin de variables latentes o no observadas que se generan en los datos.

- Transformar las variables originales, en general correlacionadas, en nuevas variables, incorrelacionadas, y ordenadas en orden de importancia de acuerdo a la variabilidad y que llamaremos las Componentes Principales.

El origen del Anlisis de Componentes Principales (ACP) se debe a K. Pearson quien en 1901 propuso la bsqueda de un subespacio que mejor se ajusta a los datos, para esto utiliz el mtodo de los de mnimos cuadrados, esto es minimizando la suma de los cuadrados de las distancias de cada punto al subespacio. Hotelling en 1933 propuso hallar las componentes principales como las combinaciones lineales de las variables que maximizan la variabilidad.Otra propuesta es la formulada por Gower (1966), minimizando la discrepancia entre los puntos calculados en el espacio original y en el espacio de baja dimensin.

El ACP se aplica fundamentalmente a datos con un nivel de medicin de intervalo y por tanto de razn, sin embargo algunos autores han planteado la posibilidad de aplicarlo a otro tipo de datos tales como: datos con nivel de medicin ordinales o de rangos como lo describe Lebart et al (1985), o incluso datos nominales conocido como Anlisis de componentes principales categrico (CATPCA); este procedimiento se encuentra descrito en Young (1981), Kuhfeld, Sarle, y Young, (1985), Saporta, (1983), Young, Takane, y de Leeuw, J. (1978, 1985). En este captulo se presentar el ACP para datos cuyo nivel de medicin es como mnimo de intervalo.

Definicin de las componentes principales poblacionales

Sea X = (X1, . . . , Xp)t un vector aleatorio p-dimensional y sean y su esperanza y covarianzaE[X] = = 0Cov[X] = = (ij )Sea = (1, . . . , p) Rp tal que = 1. Se consideran combinaciones lineales X = (1,. . ., p) = 1X1 + + pXp =

cuya varianza vendr dada por

Var [X] = E (X)2 = E XX = De entre todas las combinaciones lineales se selecciona la que verifique el problema El problema de optimizacin planteado se resuelve mediante la tcnica de Multiplicadores de Lagrange. Se considera la Funcin de Lagrange 1(L; ) = LL (LL 1) = El vector de derivadas parciales de la funcin de Lagrange es

1 (L; ) = 2L2LL

Que, igualando a cero, da lugar a ( I) = 0(1)ecuacin que tiene solucin si | I |= 0(2)La funcin | I | es un polinomio en de orden p y la ecuacin (2) tiene p races1 plas races caractersticas se , de vectores caractersticos asociados1 = (11, . . . , 1p), . . . , p = (p1, . . . , pp)Multiplicando (1) a la izquierda por se tiene = = Por tanto, se concluye que si con = 1 verifica (1),Var [X] = = Siendo la raz caracterstica de correspondiente a .Para maximizar Var [X] se elige 1 = , mayor raz caracterstica de , y 1 = , el vector caracterstico de correspondiente. Si el rango de 1I es p 1, la solucin es nica.

La combinacion lineal normalizada p U = X = 1iXi i=1con 1 vector caracterstico normalizado de correspondiente a la mayor raz caracterstica, 1, se denomina primera componente principal de X.Para obtener una nueva componente principal, se busca una combinacin lineal normalizada

X = (1,. . ., p) = 1X1 + + pXp =

Con varianza mxima entre todas las combinaciones lineales LX normalizadas (unicidad) X / Var [ X] = max Var [LX] LRpLL = 1

e incorreladas con U1

1Cov [L X, U1] = 0 = E [L XU1] = E [L X ] = E [L XX1] = L 1 = L11 = 1L1Se sigue que los vectores L y 1 son ortogonales. Se plantea el problema de optimizacin

La funcin de Lagrange es ahora:2(L; ; v) = L L (L L 1) 2v(L 1)El vector de derivadas parciales es 2 (L; ; v) = 2L 2L 2v1 (4) L1Si denota la solucin de este problema, multiplicando (4) a la izquierda por , deber satisfacer

1 1 v11 = 0Puesto que de (3) se sigue que 1 = 0 11 = 1se llega av1 = 0y, al ser 1 0, ha de ser v = 0. Como consecuencia, de (4) se concluye ( I) = 0 | I |= 0Los coeficientes de la segunda componente principal de X se obtienen a partir del vector caracterstico normalizado 2 de correspondiente a su segunda raz caracterstica 2.

La combinacion lineal normalizada p U2 = 2 X = 2iXi i=1con 2 vector caracterstico normalizado de correspondiente a la segunda raz caracterstica, 2,se denomina segunda componente principal de X.El proceso continua hasta llegar al paso r + 1. Se busca ahora una combinacin lineal

X = (1,. . ., p) = 1X1 + + pXp = con varianza mxima entre todas las combinaciones lineales normalizadas que sean incorreladas conU1, . . . , Ur X / Var [ X] = max Var [L X]LRpL L = 1,Cov [L X, Ui] = 0,i = 1, . . . , rEn este caso,iCov [L X, Ui] = E [L XU ] = E [L XX i] = L E[XX]i= L i = L ii = iL i = 0,i = 1, . . . , rEl problema que se plantea ahora es i = 1, . . . , rLa funcin de Lagrange asociada a este problema esr+1(L; ; v1, . . . , vr ) = L L (L L 1) 2

El vector de derivadas parciales asociado Igualando a cero, se obtiene que el vector que sea solucin de este problema ha de verificar iPuesto que de esto y de que i = i se sigue

se obtiene Si i 0 Si i = 0 Por tanto, ( I) = 0, | I |= 0Llegados a este punto si r+1 = 0 = r+1 autovalor de , = r+1 autovector normalizado de La combinacin lineal normalizada Ur+1 = r+1 Xcon r+1 vector caracterstico normalizado de correspondiente a la raz caracterstica r+1se denomina r+1-esima componente principal de X.Si ocurrer+1 = 0,i = 0, i = r + 1 r+1 combinacin lineal de r+1 y i / i = 0 r+1 ortogonal a i, i = 1, . . . , rEste procedimiento contina hasta el paso m tal que

Paso m + 1 :$ / XincorreladoU1 . . . UmPuesto que es de dimensin p p y 1, . . . , m deben ser linealmente independientesm = pom < pSe comprueba (Giri, 1977) que la unica solucion posible esm = pSea 1 2 = 0matriz de races caractersticas ordenadas de y seai = (1 p),i/ ( iI)i = 0, i = 1 matriz de los correspondientes vectores caractersticos normalizados.Puesto que

se concluye = I =

t = 28

Se tiene as el siguiente resultado.

Existe una transformacin ortogonalU = (U1, . . . , Up)t = tXtal que Cov[U] = E[UUt] = , una matriz diagonal con elementos 1 2 p races ordenadas de | I |= 0. La columna i de satisface ( I) = 0. Las componentesdeUestn incorreladas y tienen varianza mxima entre todas las combinaciones lineales incorreladas con U1, . . . , Ui1.El vector U es el vector de componentes principales de X.

En caso de races mltiples se tiene el segundo resultado.Teorema 2.2

Sir+1 = r+2 = = r+m = entoncesRango [ I ] = p m.Adems, el vectorcaracterstico correspondiente, x = ( r+1 r+2 r+m ),est unvocamente determinadosalvo multiplicaciones a derecha por matriz ortogonal.28

Del Teorema 2.1 se sigue

| | = | |

Varianza generalizada de X

Varianza generalizada de U28

Lo mismo es cierto para la suma de componentes de X y U

Traza[ ]=Traza[ ] Suma de varianzas deSuma de varianzas delas componentes de Xlas componentes de U28

Ejemplo 2.1

Sea X = (X1, X2, X3)t un vector aleatorio con matriz de covarianzas

Obtener las componentes principales asociadas a este vector aleatorio

. 1 .

.2025 00

0. = 0

2 .

(1 )(5 )(2 ) 4(2 ) = 0 (2 ) [(1 )(5 ) 4] = 0

(2 ) = 0(1 )(5 ) 4 = 0

= 5.83= 2= 0.17

( 1I)1 = 0 4.83x 2y= 03.83z= 0

( 2I)2 = 0 x 2y= 02x + 3y= 0 ( 3I)3 = 0 0.83x 2y= 01.83z= 0

U1 = 1 X = 0.38X1 0.92X2 U2 = 2X = X3 Var [ U1 ] = Var [ 0.38X1 0.92X2 ] = E[0.38(X1 1) 0.92(X2 2) ]2= E [ (0.38)2(X1 1)2 ] + E [ (0.92)2(X2 2)2 ] 2E [ (0.38)(0.92)(X1 1)(X2 2) ]= (0.38)2Var [ X1 ] + (0.92)2Var [ X2 ] 2(0.38)(0.92)Cov [ X1X2 ]= 5.83 = 1 U3 = 3X = 0.92X1 + 0.38X2

Var [ U2 ] = Var [ X3 ] = 2 = 2 Cov [ U1, U2 ] = E. (U1 E[U1])(U2 E[U2]) .= E[ {0.38(X1 1) 0.92(X2 2)}{X3 3} ]= E[ 0.38(X1 1)(X3 3) ] E[ 0.92(X2 2)(X3 3) ]= 0.38Cov [ X1, X3 ] 0.92Cov [ X2, X3 ] = 0Var [ U3 ] = Var [ 0.92X1 + 0.38X2 ] = E[ 0.92(X1 1) + 0.38(X2 2) ]2= E [ (0.92)2(X1 1)2 ] + E [ (0.38)2(X2 2)2 ] ++2E [ (0.92)(0.38)(X1 1)(X2 2) ]= (0.92)2Var [ X1 ] + (0.38)2Var [ X2 ] + 2(0.92)(0.38)Cov [ X1X2 ]= 0.17 = 3

Cov [ U1, U3 ] = E. (U1 E[U1])(U3 E[U3]) .= E [ {0.38(X1 1) 0.92(X2 2)}{0.92(X1 1) + 0.38(X2 2)} ]= (0.38)(0.92)Var [ X1 ] + (0.38)2Cov [ X1, X2 ](0.92)2Cov [ X1, X2 ] (0.92)(0.38)Var [ X2 ] 0

Cov [ U2, U3 ] = E. (U2 E[U2])(U3 E[U3]) .= E[ (X3 3){0.92(X1 1) + 0.38(X2 2)} ]= 0.92Cov [ X3, X1 ] + 0.38Cov [ X3, X2 ] 0

Traza [ ] = 1 + 5 + 2 = 8 Traza [ t ] = 1 + 2 + 3 = 5.83 + 2 + 0.17 = 8

Estimacion del analisis de componentes principales

En la prctica la covarianza de X, es desconocida. Por ello no podrn usarse las componentes principales poblacionales y la seleccin del nmero de componentes principales a considerar en el estudio debe hacerse en base a observaciones mustrales de X.Sea X = (X1, X2,, XP) un vector aleatorio p dimensional y sean su esperanza y covarianza. Para tratar el problema de desconocida se asume que X tiene una distribucin .Sea una muestra aleatoria de tamao N de X(N > p).

Sean:

El estimador verosmil de y el estimador mximo verosmil de respectivamente.TEOREMA 3Los estimadores mximo verosmiles de las races caractersticas de son las races ordenadas de , Y los estimadores mximo verosmiles de los vectores caractersticos de , 1, 2,, p son los vectores solucin de

Con el anlisis de componentes principales se pretende, partiendo de una muestra aleatoria de tamao N del vector X de variables que inicialmente pueden estar correladas, obtener un numero k < p de variables incorreladas, que sean combinacin lineal de las variables iniciales y que expliquen la mayor parte de su variabilidad.La i-esima componente principal muestral se expresa como combinacin lineal de las variables originales Para las N observaciones muestrales se tiene la ecuacin matricial

El vector caracterstico de asociado al i-esimo valor caracterstico, se suele denominar tambin i-esimo eje principal.La estimacin de la varianza total el sistema, Traza , vienes dada por

y se denomina Varianza muestral totalSe verifica que la suma de las varianzas de las variables (inercia total de la nube de puntos) es igual a la suma de las varianzas de las componentes principales

La contribucin a la varianza muestral total i-esima componente principal es

que expresada en porcentaje, se conoce como porcentaje de la contribucin a la varianza muestral de la i-esima componente principal o porcentaje de la inercia explicada por la i-esima componente principalLa contribucin a la varianza muestral total de las k primeras componentes principales es

que, expresada en porcentaje, se conoce como porcentaje de la contribucin a la varianza muestral de las k primeras componentes principales o porcentaje de inercia explicada por la k primeras componentes principales.Si los estimadores de las componentes principales se obtienen a partir de la matriz de correlacin muestral.

DETERMINACIN DEL NMERO DE COMPONENTES PRINCIPALESAl utilizar la tcnica de componentes principales para fines de reduccin o simplificacin de los datos, surge la necesidad de decidir sobre el nmero de componentes principales que se deben retener.

En el caso de usar S, hay dos mtodos:1.- retener solamente aquellos componentes cuyas races caractersticas son significativamente diferentes de cero.2.- emplear como criterio el porcentaje acumulado de variancia total explicado por los varios componentes principales sucesivos. Es decir, retener m < p componentes si:

Alcanza un valor grande, determinado arbitrariamente, digamos entre 0.80 y 0.90.Cuando se factoriza la matriz R, la significancia estadstica de las races caractersticas no es posible evaluarla debido a problemas tericos en el desarrollo de las pruebas estadsticas correspondientes. Dos reglas prcticas que se utilizan son:Retener solamente aquellos componentes cuyas races caractersticas i son mayores que 1. La justificacin que se da es que cualquier componente merezca ser retenido, debe explicar ms variancia que cualquiera de las variables estandarizadas (que tienen iguales a 1).

Emplear la prueba grafica que consiste en contruir un grafico cuyas ordenadas son las raices caracteristicas de los componentes y las abcisas el rden sucesivo de edxtyraccion de los componentes. Se trata luego de ubicar un punto o codo , donde la curva descendente se convierta en una recta descendente. Se retienen entonces un numero de componentes al igual que a la abcisa donde comienza el codo.Este mtodo tiene la desventaja de que no siempre existe un codo y, a veces, puede hablar ms de uno.Anlisis de Componentes PrincipalesANLISIS DE COMPONENTES PRINCIPALES SOBRE LA MATRIZ DE CORRELACIONESPara determinar el componente principal asociado al vector de direccin principal a, se debe maximizar la funcin:

M = atSa

Sujeta a la condicin = 1. La funcin M puede escribirse como:

1Supongamos que, a modo de ejemplo, la varianza s2 es mucho mayor que las dems varianzas, una manera de maximizar M es sencillamente es hacer tan grande como se pueda la coordenada a1 asociada a esta variable x1. Si una variable original tiene una varianza mucho mayor que las dems, el primer componente coincidir muy aproximadamente con esta variable, en efecto recuerde que el primer componente satisface para cada observacin i:

z1i = xi1 a1 + + xip apDe modo que si una variable tiene una varianza mucho mayor que las dems, el primer componente principal coincidir con esta variable.De tal modo que esta propiedad depender del tamao de escala que est utilizando una determinada variable, de tal manera que la maximizacin de (1) depender decisivamente de la escala a usar en cada variables. Es decir las escalas con valores ms grandes tendrn mayor peso en el anlisis. Una manera de evitar este riesgo consiste en estandarizar las variables antes de calculas los componentes principales. Una vez estandarizadas las variables, se tiene que la funcin que se debe maximizar es:

Siendo el coeficiente de correlacin lineal entre las variables i y j. En consecuencia, la solucin depende de las correlaciones y no de las varianzas.Los componentes principales normados se obtienen calculando los vectores y valores propios de la matriz R, de coeficientes de correlacin. Llamando a las races caractersticas de esa matriz, que suponemos no singular, se verifica que: (3)Las propiedades de los componentes extrados de R son:1. La proporcin de variacin explicada por ser: (4)Las correlaciones entre cada componente y las variables X originales vienen dados directamente por siendo

Cuando las variables originales de X estn en distintas unidades conviene aplicar el anlisis de los componentes principales emanados de la matriz R de correlacin. Cuando las variables originales tienen las mismas unidades ambas alternativas son posibles. Si las diferencias entre las variables son informativas y queremos considerar este hecho en el anlisis no conviene estandarizar las variables. Por el contrario, si las diferencias entre las varianzas no son relevantes, simplemente se elimina del anlisis considerando la matriz de correlaciones.MATRIZ DE CORRELACIONES DE LA MUESTRA