RECONOCIMIENTO DE PAUTAS - UNP

40
RECONOCIMIENTO DE PAUTAS ANÁLISIS DE COMPONENTES PRINCIPALES

Transcript of RECONOCIMIENTO DE PAUTAS - UNP

Page 1: RECONOCIMIENTO DE PAUTAS - UNP

RECONOCIMIENTO DE PAUTAS

ANÁLISIS DE COMPONENTES PRINCIPALES

Page 2: RECONOCIMIENTO DE PAUTAS - UNP

Análisis multivariante:

el volumen bruto de los datos dificulta el reconocimiento de

pautas y relaciones

la matriz de correlación posee cientos de valores

las variables pueden presentar cierta correlación algo de

la información resulta redundante

Page 3: RECONOCIMIENTO DE PAUTAS - UNP

Análisis de componentes principales

es un técnica que permite, cuando las variables están correlacionadas:

reducir la cantidad de datos

perder la menor cantidad de información

pocos factores explicarán gran parte de la variabilidad total

Page 4: RECONOCIMIENTO DE PAUTAS - UNP

Análisis de componentes principales

Se aproxima la matriz de datos originales (X) al producto de

dos matrices más pequeñas más una matriz de error (E):

X = T ∙ P + E

T: matriz de puntuación (scores): tiene tantas filas (I) como

X y tantas columnas (J) como componentes principales (A)

P: matriz de carga (loadings): tiene tantas columnas como X

y tantas filas como A

A ≤ I, J

Page 5: RECONOCIMIENTO DE PAUTAS - UNP

scores

Page 6: RECONOCIMIENTO DE PAUTAS - UNP

Análisis de componentes principales

T (scores): sus columnas son vectores de puntuación (ta)

P (loadings): sus filas son vectores de carga (pa)

cada componente A se caracteriza por un par de vectores

llamados autovectores o vectores propios (eigenvectors)

a cada A le corresponde un autovalor (eigenvalue)

Page 7: RECONOCIMIENTO DE PAUTAS - UNP

Análisis de componentes principales

Propiedades de los autovectores

los vectores son mutuamente ortogonales

cada pa (loading) está normalizado

si las columnas están centradas por la media: el coeficiente

de correlación entre cualquier dos ta (scores) = 0

a ≠ b

Page 8: RECONOCIMIENTO DE PAUTAS - UNP

Los datos se pueden representarsolo en dos dimensiones

PCA es equivalente a unarotación de los ejes originales

Puntos de datos

Proyección sobre los ejes

Page 9: RECONOCIMIENTO DE PAUTAS - UNP

Análisis de componentes principales

Los datos son reconstruidos de tal manera que se obtengan variables (en número reducido) no correlacionadas

Page 10: RECONOCIMIENTO DE PAUTAS - UNP

Análisis de componentes principales

PCA es un método matemático para reducir datos

Se puede establece un modelo para cada elemento de X:

Page 11: RECONOCIMIENTO DE PAUTAS - UNP

Estimación del número de componentes principales

Idealmente sería el número de componentes bajo observación

Número de componentes significativos está dado por el rango de la matriz

El número de componentes está distorsionado por el ruido

Debe decidirse el número de CP empleando distintos criterios

Page 12: RECONOCIMIENTO DE PAUTAS - UNP

Criterios para estimar el número de componentes principales

Porcentaje de la varianza explicada: se calcula la fracción de la varianza acumuladasi se usan todos los CP posibles se explica el 100 % de la varianza

Criterio del autovalor uno: sólo los CP con autovalores mayores que 1 son considerados importantes cuando se usa la matriz de correlación

Page 13: RECONOCIMIENTO DE PAUTAS - UNP

Criterios para estimar el número de componentes principales

Gráfico de ladera (scree-test): los niveles de varianza residual (o los autovalores) disminuyen cuando se alcanza el número apropiado de CP

CP

autovalores

Page 14: RECONOCIMIENTO DE PAUTAS - UNP

Criterios para estimar el número de componentes principales

Validación cruzada (cross validation): se remueve cada objeto de la matriz X y se vuelve a calcular el modelo con los datos remanentes (leave-one-out method)se calcula el error, llamado suma de los cuadrados del error residual predicho (PRESS) y el número de CP se obtiene del menor valor

Page 15: RECONOCIMIENTO DE PAUTAS - UNP

Análisis de componentes principales

Un ejemplo

al investigar un crimen se recogió cabello humano

para intentar resolver el crimen se tomaron muestras de cabello de tres sospechosos

además de análisis morfológicos, se realizó un análisis elemental

Page 16: RECONOCIMIENTO DE PAUTAS - UNP

Cabello Cu (ppm) Mn (ppm) Cl (ppm) Br (ppm) I (ppm)

1 9,2 0,30 1730 12,0 3,6

2 12,4 0,39 930 50,0 2,3

3 7,2 0,32 2750 65,3 3,4

4 10,2 0,36 1500 3,4 5,3

5 10,1 0,50 1040 39,2 1,9

6 6,5 0,20 2490 90,0 4,6

7 5,6 0,29 2940 88,0 5,6

8 11,8 0,42 867 43,1 1,5

9 8,5 0,25 1620 5,2 6,2

Análisis de componentes principales

Page 17: RECONOCIMIENTO DE PAUTAS - UNP

Análisis de componentes principales

realizar un PCA de los datos empleando Minitab

Eigenanalysis of the Correlation Matrix

CP1 CP2 CP3 CP4 CP5Eigenvalue 3,3523 1,1824 0,2852 0,1351 0,0450Proportion 0,670 0,236 0,057 0,027 0,009Cumulative 0,670 0,907 0,964 0,991 1,000

dos componentes explican la varianza del 90 % de los datos

Page 18: RECONOCIMIENTO DE PAUTAS - UNP

Análisis de componentes principales

Scree-plot

Page 19: RECONOCIMIENTO DE PAUTAS - UNP

Análisis de componentes principales

Gráfico de Scores

para los dos primeros CP

la proyección lineal de objetos representa la mayor parte de la varianza total de los datos

se observan agrupamientos de objetos

Page 20: RECONOCIMIENTO DE PAUTAS - UNP

Análisis de componentes principales

Scores

tres grupos, pertenecientes a los cabellos de cada sospechoso

Page 21: RECONOCIMIENTO DE PAUTAS - UNP

Análisis de componentes principales

Gráfico de Loadings

brinda información sobre la correlación de las características de las variables estudiadas

a menor ángulo, mayor correlación

características no correlacionadas son ortogonales

la importancia de un CP se estima a partir de su tamaño

Page 22: RECONOCIMIENTO DE PAUTAS - UNP

Análisis de componentes principales

Loadings

todos los elementos son importantes para describir a CP1sólo I y Br describen a CP2

correlacionadas

Page 23: RECONOCIMIENTO DE PAUTAS - UNP

RECONOCIMIENTO DE PAUTAS

ANÁLISIS FACTORIAL

(FA- FACTOR ANALYSIS)

Page 24: RECONOCIMIENTO DE PAUTAS - UNP

Análisis factorial

es un técnica de reducción de datos, empleada originalmente en psicología

emplea un número pequeño de factores comunes (variables) a cada factor se le asigna una propiedad que no se puede observar directamente (ej. memoria)

las propiedades se arreglan en filas y las muestras en columnas

los factores abstractos se transforma en factores interpretables por métodos de rotación

Page 25: RECONOCIMIENTO DE PAUTAS - UNP

Análisis factorial

se aproxima la matriz de datos originales (X):

X = F ∙ L + E

F: matriz de puntuación (scores): contiene los valores de las

propiedades de d factores

L: matriz de carga (loadings): caracteriza cada factor por p

variables

E: consiste de p-d factores remanentes (o factores específicos,

generalmente interferencias, ruido)

Page 26: RECONOCIMIENTO DE PAUTAS - UNP

Análisis factorial

Ejemplo: cromatografía

Page 27: RECONOCIMIENTO DE PAUTAS - UNP

Análisis factorial

Primer problema: estimar la matriz de carga (L)

Métodos:

Componentes principales

Máxima probabilidad (maximum likelihood)

Análisis de factores canónico

Método centroide

Minitab

métodositerativos

Page 28: RECONOCIMIENTO DE PAUTAS - UNP

Análisis factorial

la matriz de carga óptima se obtiene por rotación de factores

la rotación puede ser:

ortogonal (para factores independientes): se rota el sistema de coordenadas, la matriz L se multiplica por una matriz de transformación T

Lrot= L. T

oblicua (factores correlacionados): oblimin

Page 29: RECONOCIMIENTO DE PAUTAS - UNP

Métodos de rotación (transformación)

varimax: la varianza de los cuadrados de los loadings de un factor es máxima (los factores se describen con el menor número de variables posible)

quartimax: la varianza de los cuadrados de los loadings de una variable es máxima (se expresa cada variable por el menor número de factores posibles)

….

Page 30: RECONOCIMIENTO DE PAUTAS - UNP

Análisis factorial

Un ejemplo

se investiga la composición de una mezcla de contaminantes orgánicos, hidrocarburos aromáticos policíclicos (PAH)

se emplea cromatrografía (HPLC-DAD) y espectroscopia UV-Vis

Page 31: RECONOCIMIENTO DE PAUTAS - UNP

tiempo de longitud de onda (nm)retención (min) 245 265 285 305 325

6,4 7,81 4,83 4,367 0,944 1,7756,5 84,33 52,69 56,100 12,890 20,7306,6 161,58 99,30 108,430 26,920 39,0266,7 173,33 77,89 97,260 39,368 28,6706,8 274,70 63,92 82,160 47,150 20,0606,9 218,92 36,95 39,820 25,580 10,4907,0 79,04 12,07 10,580 6,536 3,230

Análisis factorial

datos de absorbancia de un cromatograma HPLC-DAD de una mezcla de PAH

Page 32: RECONOCIMIENTO DE PAUTAS - UNP

Análisis factorial

cromatograma HPLC de una mezcla de PAHpicos no resueltos (superpuestos)

Page 33: RECONOCIMIENTO DE PAUTAS - UNP

Análisis factorial

Scree-plothay tres factores comunes significativos

Page 34: RECONOCIMIENTO DE PAUTAS - UNP

Análisis factorial

se realiza un análisis factorial de los datos con Minitab

Unrotated Factor Loadings and Communalities

Variable Factor1 Factor2 Factor3 Communality245 nm 0,779 -0,606 0,159 1,000265 nm 0,958 0,282 0,050 1,000285 nm 0,979 0,195 -0,058 1,000305 nm 0,892 -0,417 -0,177 1,000325 nm 0,905 0,423 0,047 1,000

Variance 4,0973 0,8383 0,0644 5,0000% Var 0,819 0,168 0,013 1,000

Page 35: RECONOCIMIENTO DE PAUTAS - UNP

Análisis factorial

cada elemento de la matriz puede interpretarse como índices de correlación entre el factor i y la variable j

idealmente: cada variable cargue alto en un factor y bajo en los demás

el cuadrado de una carga factorial indica la proporción de la varianza explicada por un factor en una variable particular

la suma de los cuadrados de los pesos de cualquier columna de la matriz factorial son los eigenvalues (indican la cantidad total de varianza que explica ese factor)

Page 36: RECONOCIMIENTO DE PAUTAS - UNP

Análisis factorial

las cargas factoriales pueden tener como valor máximo 1, por tanto el valor máximo que puede alcanzar el valor propio es igual al número de variables

comunalidad: la proporción de la varianza explicada por los factores comunes en una variable

la comunalidad es la suma de los pesos factoriales al cuadrado en cada una de las filas

Page 37: RECONOCIMIENTO DE PAUTAS - UNP

Análisis factorial

Gráfico de cargas (loadings)

Page 38: RECONOCIMIENTO DE PAUTAS - UNP

Análisis factorial

se puede realizar el mismo procedimiento empleando compuestos “sospechosos”:

benzo[k]fluoranteno (lmax= 245, 305 nm)

benzo[b]fluorantreno (lmax= 245, 265, 285 nm)

perileno (lmax= 245, 265 nm)

antraceno (lmax= 245 nm)

Page 39: RECONOCIMIENTO DE PAUTAS - UNP

Análisis factorial

Espectros UV simplificados de los compuestos estudiados: B[k]F, B[b]F, perileno y antraceno

Page 40: RECONOCIMIENTO DE PAUTAS - UNP

Análisis factorial

por comparación de la matriz de predicción con la matriz hipotética de los compuestos “sospechosos” se demuestra que B[k]F, B[b]F y P correlacionan bien con la mezcla

espectro UV simplificado de antraceno: espectro real, espectro predicho

el antraceno puede ser excluido de la mezcla de PAH