Análisis de Componentes Principales (ACP) · elementos de la Matriz de Varianza y Covarianza de la...

45
Sistemas de Visión Sistemas de Visión en Manufactura en Manufactura Análisis de Análisis de Componentes Componentes Principales Principales (ACP) (ACP) Maestría en Maestría en MIC, UDB MIC, UDB Presenta: Sergio Miguel García Pérez Presenta: Sergio Miguel García Pérez Enero de 2015 Enero de 2015

Transcript of Análisis de Componentes Principales (ACP) · elementos de la Matriz de Varianza y Covarianza de la...

Sistemas de VisiónSistemas de Visiónen Manufacturaen Manufactura

Análisis de Análisis de Componentes Componentes

Principales Principales (ACP)(ACP)

Maestría en Maestría en MIC, UDBMIC, UDB

Presenta: Sergio Miguel García PérezPresenta: Sergio Miguel García Pérez Enero de 2015Enero de 2015

IntroducciónIntroducción

Cuando se recoge información de una muestra de datos, lo más

frecuente es tomar el mayor número posible de variables. Sin

embargo, si se toman demasiadas variables sobre un conjunto, por

ejemplo 20 variables, se tendrá que considerar 180 posibles

coeficientes de correlación. Evidentemente, en este caso es difícil

visualizar relaciones entre las variables.

SVM, Maestría en MIC Análisis de Componentes Principales

Otro problema que se presenta es, la fuerte correlación que muchas

veces se presenta entre las variables: si tomamos demasiadas variables,

lo normal es que estén relacionadas o que midan lo mismo bajo distintos

puntos de vista. Se hace necesario, reducir el número de variables.

Es importante resaltar el hecho de que el concepto de mayor información

se relaciona con el de mayor variabilidad o varianza. Cuanto mayor sea

la variabilidad de los datos (varianza) se considera que existe mayor

información, lo cual está relacionado con el concepto de entropía.

SVM, Maestría en MIC Análisis de Componentes Principales

El Análisis de Componentes Principales (ACP) pertenece a un grupo

de técnicas estadísticas multivariantes, eminentemente descriptivas.

Concepto que ha sido muy difundido, especialmente en el

tratamiento de grandes masas de datos.

Estas técnicas fueron inicialmente desarrolladas por Pearson a

finales del siglo XIX y posteriormente fueron estudiadas por

Hotelling en los años 30 del siglo XX. Sin embargo, hasta la

aparición de los ordenadores no se empezaron a popularizar.

SVM, Maestría en MIC Análisis de Componentes Principales

En estadística, el Análisis de Componentes Principales, es una técnica

utilizada para reducir la dimensionalidad de un conjunto de datos.

Intuitivamente la técnica sirve para hallar las causas de la variabilidad de un

conjunto de datos y ordenarlas por importancia.

Técnicamente, el ACP busca la proyección según la cual los datos queden

mejor representados en términos de mínimos cuadrados. El ACP se emplea

sobre todo en análisis exploratorio de datos y para construir modelos

predictivos. El ACP comporta el cálculo de la descomposición en

autovalores de la matriz de covarianza, normalmente tras centrar los datos en

la media de cada atributo.

SVM, Maestría en MIC Análisis de Componentes Principales

Para estudiar las relaciones que se presentan entre p variables

correlacionadas (que miden información común) se puede

transformar el conjunto original de variables en otro conjunto de

nuevas variables incorreladas entre sí (que no tenga repetición o

redundancia en la información) llamado conjunto de componentes

principales.

“Las nuevas variables son combinaciones lineales de las

anteriores y se van construyendo según el orden de importancia

en cuanto a la variabilidad total que recogen de la muestra”.SVM, Maestría en MIC Análisis de Componentes Principales

De modo ideal, se buscan m < p variables que sean combinaciones

lineales de las p originales y que estén incorreladas, recogiendo la

mayor parte de la información o variabilidad de los datos.

Si las variables originales están incorreladas de partida, entonces no

tiene sentido realizar un análisis de componentes principales.

SVM, Maestría en MIC Análisis de Componentes Principales

Las aplicaciones del ACP son numerosas y entre ellas podemos

citar:

(a) La clasificación de individuos; la comparación de poblaciones; la

estratificación multivariada.

(b) Como técnica de análisis exploratorio que permite descubrir

interrelaciones entre los datos y de acuerdo con los resultados,

proponer los análisis estadísticos más apropiados.

SVM, Maestría en MIC Análisis de Componentes Principales

(c) Reducir la dimensionalidad de la matriz de datos con el fin de

evitar redundancias y destacar relaciones. En la mayoría de los

casos, tomando sólo los primeros componentes, se puede explicar la

mayor parte de la variación total contenida en los datos originales.

(d) Es de gran utilidad usar estos componentes incorrelacionados,

como datos de entrada para otros análisis. Por ejemplo, en el caso

de la regresión múltiple cuando las variables independientes

presentan alta colinealidad es preferible hacer la regresión sobre los

componentes principales en lugar de usar las variables originales.SVM, Maestría en MIC Análisis de Componentes Principales

(e) Construir variables no observables (componentes) a partir de

variables observables. Por ejemplo, la inteligencia de una persona no

es observable directamente, en cambio, se puede medir distintos

aspectos de ésta mediante pruebas psicométricas. Las variables que

miden los distintos aspectos de la inteligencia tienden a covariar;

esto sugiere que expresan la mismas características pero de

diferente forma y que sólo hay un pequeño número de rasgos no

directamente medibles, que se denominan Indicadores sintéticos y

que vienen estimados por los componentes.

SVM, Maestría en MIC Análisis de Componentes Principales

Fundamentación Teórica

Permite reducir la dimensionalidad de los datos, transformando el

conjunto de p variables originales en otro conjunto de q variables no

correlacionadas (q ≤ p) llamadas componentes principales. Las p

variables son medidas sobre cada uno de los n individuos,

obteniéndose una tabla de datos o matriz de datos de orden np (p <

n).

SVM, Maestría en MIC Análisis de Componentes Principales

La varianza de la primera componente mientras mayor sea, mayor

será la cantidad de información en dicha componente.

Por ello las sucesivas combinaciones o variantes de las

componentes se ordenan en forma descendente de acuerdo a la

proporción de la varianza total presente en el problema, que cada

una de ellas explica.

SVM, Maestría en MIC Análisis de Componentes Principales

La primer componente es por lo tanto, la combinación de máxima varianza;

la segunda es otra combinación de variables originarias que obedece a la

restricción de ser ortogonal a la primera y de máxima varianza, la tercer

componente es aún otra combinación de máxima varianza, con la

propiedad de ser ortogonal a las dos primeras; y así sucesivamente.

Por sus propiedades de ortogonalidad, las sucesivas componentes

después de la primera se pueden interpretar como las combinaciones

lineales de las variables originarias que mayor varianza residual explican,

después que el efecto de las precedentes ha sido ya removido y así

sucesivamente hasta que el total de varianza ha sido explicado.

SVM, Maestría en MIC Análisis de Componentes Principales

Cuando las variables están correlacionadas en mayor grado, las

primeras componentes explican un alta proporción de la varianza

total, por eso las componentes principales pueden sustituir a las

múltiples variables originarias, esto permitiría resumir en unas

pocas variantes o componentes no correlacionadas gran parte

de la información.

SVM, Maestría en MIC Análisis de Componentes Principales

Las Etapas en un ACP

El análisis de componentes principales todas las variables surgen sobre un

fundamento igual es apropiado, esto implica que:

(1) Todas las variables deben estar medidas en las mismas unidades o, por

lo menos, en unidades comparables, esto significa que si las variables de

respuestas no miden en las mismas unidades, entonces cualquier cambio

en la escala de medición en una o mas de las variables tendrá un efecto

sobre las componentes principales. Ese cambio de escala podría invertir

los papeles de las variables importantes y las no importantes.SVM, Maestría en MIC Análisis de Componentes Principales

(2) Las variables deben tener varianzas que tengan tamaños

aproximadamente semejantes, por lo general las componentes

principales se modifican por un cambio de escala de las variables;

por lo que no son una característica única de los datos.

Si una de las variables tiene una varianza mucho más grande que las

demás, dominará la primera componente principal, sin importar la

estructura de las covarianzas de las variables y, en este caso, tiene

poco objeto la realización de un ACP.

SVM, Maestría en MIC Análisis de Componentes Principales

Eigenvalores y Eigenvectores

Cuando no parezca que las variables están ocurriendo sobre un

fundamento igual, muchos investigadores aplican el ACP a la matriz de

correlación de las respuestas, en lugar de la matriz de covarianzas.

Esto es equivalente a aplicar el ACP a los datos estandarizados, en lugar

de aplicarlo a los valores de los datos en bruto. En este caso, los

componentes principales se definen por los eigenvalores y eigenvectores

de R, la matriz de correlación, en lugar de por aquellos correspondientes a

S, la matriz de covarianzas.SVM, Maestría en MIC Análisis de Componentes Principales

Los eigenvalores y eigenvectores de R son distintos a los de S y no

existe simplificación sencilla para pasar de un conjunto de valores a

otro.

Los eigenvalores y eigenvectores de R se denotarán por

y a1, a2,….,ap, respectivamente.

λ1≥ λ2≥. .. .≥λp

SVM, Maestría en MIC Análisis de Componentes Principales

Estandarización de datos de la matriz (Valores Z)

Al estandarizar los datos, estamos haciendo que las variables se midan en

unidades comparables.

Se define: para r = 1, 2, …, n y j = 1, 2,…, p.

Donde xrj son los valores de las variables medidas en sus unidades originales.

Las variables Zrj son los valores estandarizados de las variables xrj. Se les

conoce como “valores Z”.

Z rj=xrj− x j

√s jj

SVM, Maestría en MIC Análisis de Componentes Principales

Estos datos pueden acomodarse en una matriz como sigue:

Z= [z11 z12 . . . z1 pz21 z22 . . . z2 p. .. .. .z n1 zn2 . . . znp

]

SVM, Maestría en MIC Análisis de Componentes Principales

Matriz de Varianza y Covarianza

Una vez estandarizados los datos se utiliza la matriz de datos

estandarizados procediendo a utilizar la matriz de varianzas y Covarianza

S original.

La matriz de Varianza y Covarianza consiste en un arreglo de p filas y p

columnas, es decir, es una matriz cuadrada propiamente simétrica. Existen

variaciones de las variables a lo largo de la diagonal principal y las

covariaciones entre cada par de variables en las otras posiciones de la

matriz.SVM, Maestría en MIC Análisis de Componentes Principales

La matriz de varianzas y covarianzas de una muestra se define:

Σ̂=S=1n [∑

r= 1

n

( xr− μ̂ )( xr− μ̂) ' ] S= [S11 S12 . . . S1 pS21 S22 . . . S2 p. . . .. . . .. . . .S p1 S p 2 . . . S pp

]

S ii=1n∑r= 1

n

( xri− x̄ i )2 i=1,2,. .. . .. ,p

En donde la varianza muestral de la i-ésima característica están

dadas por:

SVM, Maestría en MIC Análisis de Componentes Principales

y la Covarianza entre la característica i y la característica j en la

muestra es calculada por:

Por lo tanto, la Matriz de varianzas covarianzas S es igual a la Matriz

de Correlaciones R pero con cada entrada estandarizada. Los

elementos de la Matriz de Varianza y Covarianza de la muestra se

puede estimar utilizando un esquema matricial calculado por:

S ij=1n∑r= 1

n

( xri− x̄i )( xrj− x̄ j)j=1,2, .. .. . . ,p

i≠ j

{}

S= [(z1−μ1z 2−μ2...z p−μ p

) ( z1−μ1 z 2−μ2 . . . z p−μ p ) ]SVM, Maestría en MIC Análisis de Componentes Principales

SVM, Maestría en MIC Análisis de Componentes Principales

SVM, Maestría en MIC Análisis de Componentes Principales

SVM, Maestría en MIC Análisis de Componentes Principales

SVM, Maestría en MIC Análisis de Componentes Principales

SVM, Maestría en MIC Análisis de Componentes Principales

SVM, Maestría en MIC Análisis de Componentes Principales

SVM, Maestría en MIC Análisis de Componentes Principales

SVM, Maestría en MIC Análisis de Componentes Principales

SVM, Maestría en MIC Análisis de Componentes Principales

SVM, Maestría en MIC Análisis de Componentes Principales

¿Se podrá

utilizar Matlab

para este

tema?

SVM, Maestría en MIC Análisis de Componentes Principales

¿Se podrá

utilizar Matlab

para este

tema?

SVM, Maestría en MIC Análisis de Componentes Principales

SVM, Maestría en MIC Análisis de Componentes Principales

SVM, Maestría en MIC Análisis de Componentes Principales

SVM, Maestría en MIC Análisis de Componentes Principales

SVM, Maestría en MIC Análisis de Componentes Principales

SVM, Maestría en MIC Análisis de Componentes Principales

SVM, Maestría en MIC Análisis de Componentes Principales

SVM, Maestría en MIC Análisis de Componentes Principales

SVM, Maestría en MIC Análisis de Componentes Principales

Bibliografía

[1] Delgado Alvarado, S. M. “Una aplicación del Análisis de Componentes

Principales Categóricas para determinar el posicionamiento de espol en el

contexto de los Estudiantes de Tercer Año de Bachillerato”. Tesis de Grado,

Ingeniería en Estadística Informática. Escuela Superior Politécnica del Litoral.

Guayaquil, Ecuador, 2006.

[2] González Martín, P., Díaz de Pascual, A., Torres Lezama, E.,Garnica Olmos,

E. “Una aplicación del análisis de componentes principales en el área

educativa”. Instituto de Investigaciones Económicas y Sociales.

SVM, Maestría en MIC Análisis de Componentes Principales

[3] Gorgas, J., Cardiel, N. Análisis de componentes principales (PCA).

Facultad de Ciencias Físicas. Universidad Complutense de Madrid.

Sitios Web:

http://halweb.uc3m.es/esp/Personal/personas/jmmarin/esp/AMult/tema3am.pdf

http://iies.faces.ula.ve/revista/articulos/revista_09/pdf/rev09gonzalez_diaz.pdf

https://www.mhe.es/universidad/ciencias_matematicas/pena/home/CAPITULO.PDF

SVM, Maestría en MIC Análisis de Componentes Principales