RECONOCIMIENTO DE PAUTAS - UNP

RECONOCIMIENTO DE PAUTAS

ANÁLISIS DE COMPONENTES PRINCIPALES

Análisis multivariante:

el volumen bruto de los datos dificulta el reconocimiento de

pautas y relaciones

la matriz de correlación posee cientos de valores

las variables pueden presentar cierta correlación algo de

la información resulta redundante

Análisis de componentes principales

es un técnica que permite, cuando las variables están correlacionadas:

reducir la cantidad de datos

perder la menor cantidad de información

pocos factores explicarán gran parte de la variabilidad total


Se aproxima la matriz de datos originales (X) al producto de

dos matrices más pequeñas más una matriz de error (E):

X = T ∙ P + E

T: matriz de puntuación (scores): tiene tantas filas (I) como

X y tantas columnas (J) como componentes principales (A)

P: matriz de carga (loadings): tiene tantas columnas como X

y tantas filas como A

A ≤ I, J

scores


T (scores): sus columnas son vectores de puntuación (ta)

P (loadings): sus filas son vectores de carga (pa)

cada componente A se caracteriza por un par de vectores

llamados autovectores o vectores propios (eigenvectors)

a cada A le corresponde un autovalor (eigenvalue)


Propiedades de los autovectores

los vectores son mutuamente ortogonales

cada pa (loading) está normalizado

si las columnas están centradas por la media: el coeficiente

de correlación entre cualquier dos ta (scores) = 0

a ≠ b

Los datos se pueden representarsolo en dos dimensiones

PCA es equivalente a unarotación de los ejes originales

Puntos de datos

Proyección sobre los ejes


Los datos son reconstruidos de tal manera que se obtengan variables (en número reducido) no correlacionadas


PCA es un método matemático para reducir datos

Se puede establece un modelo para cada elemento de X:

Estimación del número de componentes principales

Idealmente sería el número de componentes bajo observación

Número de componentes significativos está dado por el rango de la matriz

El número de componentes está distorsionado por el ruido

Debe decidirse el número de CP empleando distintos criterios

Criterios para estimar el número de componentes principales

Porcentaje de la varianza explicada: se calcula la fracción de la varianza acumuladasi se usan todos los CP posibles se explica el 100 % de la varianza

Criterio del autovalor uno: sólo los CP con autovalores mayores que 1 son considerados importantes cuando se usa la matriz de correlación


Gráfico de ladera (scree-test): los niveles de varianza residual (o los autovalores) disminuyen cuando se alcanza el número apropiado de CP

CP

autovalores


Validación cruzada (cross validation): se remueve cada objeto de la matriz X y se vuelve a calcular el modelo con los datos remanentes (leave-one-out method)se calcula el error, llamado suma de los cuadrados del error residual predicho (PRESS) y el número de CP se obtiene del menor valor


Un ejemplo

al investigar un crimen se recogió cabello humano

para intentar resolver el crimen se tomaron muestras de cabello de tres sospechosos

además de análisis morfológicos, se realizó un análisis elemental

Cabello Cu (ppm) Mn (ppm) Cl (ppm) Br (ppm) I (ppm)

1 9,2 0,30 1730 12,0 3,6

2 12,4 0,39 930 50,0 2,3

3 7,2 0,32 2750 65,3 3,4

4 10,2 0,36 1500 3,4 5,3

5 10,1 0,50 1040 39,2 1,9

6 6,5 0,20 2490 90,0 4,6

7 5,6 0,29 2940 88,0 5,6

8 11,8 0,42 867 43,1 1,5

9 8,5 0,25 1620 5,2 6,2



realizar un PCA de los datos empleando Minitab

Eigenanalysis of the Correlation Matrix

CP1 CP2 CP3 CP4 CP5Eigenvalue 3,3523 1,1824 0,2852 0,1351 0,0450Proportion 0,670 0,236 0,057 0,027 0,009Cumulative 0,670 0,907 0,964 0,991 1,000

dos componentes explican la varianza del 90 % de los datos


Scree-plot


Gráfico de Scores

para los dos primeros CP

la proyección lineal de objetos representa la mayor parte de la varianza total de los datos

se observan agrupamientos de objetos


Scores

tres grupos, pertenecientes a los cabellos de cada sospechoso


Gráfico de Loadings

brinda información sobre la correlación de las características de las variables estudiadas

a menor ángulo, mayor correlación

características no correlacionadas son ortogonales

la importancia de un CP se estima a partir de su tamaño


Loadings

todos los elementos son importantes para describir a CP1sólo I y Br describen a CP2

correlacionadas

RECONOCIMIENTO DE PAUTAS

ANÁLISIS FACTORIAL

(FA- FACTOR ANALYSIS)

Análisis factorial

es un técnica de reducción de datos, empleada originalmente en psicología

emplea un número pequeño de factores comunes (variables) a cada factor se le asigna una propiedad que no se puede observar directamente (ej. memoria)

las propiedades se arreglan en filas y las muestras en columnas

los factores abstractos se transforma en factores interpretables por métodos de rotación

Análisis factorial

se aproxima la matriz de datos originales (X):

X = F ∙ L + E

F: matriz de puntuación (scores): contiene los valores de las

propiedades de d factores

L: matriz de carga (loadings): caracteriza cada factor por p

variables

E: consiste de p-d factores remanentes (o factores específicos,

generalmente interferencias, ruido)

Análisis factorial

Ejemplo: cromatografía

Análisis factorial

Primer problema: estimar la matriz de carga (L)

Métodos:

Componentes principales

Máxima probabilidad (maximum likelihood)

Análisis de factores canónico

Método centroide

Minitab

métodositerativos

Análisis factorial

la matriz de carga óptima se obtiene por rotación de factores

la rotación puede ser:

ortogonal (para factores independientes): se rota el sistema de coordenadas, la matriz L se multiplica por una matriz de transformación T

Lrot= L. T

oblicua (factores correlacionados): oblimin

Métodos de rotación (transformación)

varimax: la varianza de los cuadrados de los loadings de un factor es máxima (los factores se describen con el menor número de variables posible)

quartimax: la varianza de los cuadrados de los loadings de una variable es máxima (se expresa cada variable por el menor número de factores posibles)

….

Análisis factorial

Un ejemplo

se investiga la composición de una mezcla de contaminantes orgánicos, hidrocarburos aromáticos policíclicos (PAH)

se emplea cromatrografía (HPLC-DAD) y espectroscopia UV-Vis

tiempo de longitud de onda (nm)retención (min) 245 265 285 305 325

6,4 7,81 4,83 4,367 0,944 1,7756,5 84,33 52,69 56,100 12,890 20,7306,6 161,58 99,30 108,430 26,920 39,0266,7 173,33 77,89 97,260 39,368 28,6706,8 274,70 63,92 82,160 47,150 20,0606,9 218,92 36,95 39,820 25,580 10,4907,0 79,04 12,07 10,580 6,536 3,230

Análisis factorial

datos de absorbancia de un cromatograma HPLC-DAD de una mezcla de PAH

Análisis factorial

cromatograma HPLC de una mezcla de PAHpicos no resueltos (superpuestos)

Análisis factorial

Scree-plothay tres factores comunes significativos

Análisis factorial

se realiza un análisis factorial de los datos con Minitab

Unrotated Factor Loadings and Communalities

Variable Factor1 Factor2 Factor3 Communality245 nm 0,779 -0,606 0,159 1,000265 nm 0,958 0,282 0,050 1,000285 nm 0,979 0,195 -0,058 1,000305 nm 0,892 -0,417 -0,177 1,000325 nm 0,905 0,423 0,047 1,000

Variance 4,0973 0,8383 0,0644 5,0000% Var 0,819 0,168 0,013 1,000

Análisis factorial

cada elemento de la matriz puede interpretarse como índices de correlación entre el factor i y la variable j

idealmente: cada variable cargue alto en un factor y bajo en los demás

el cuadrado de una carga factorial indica la proporción de la varianza explicada por un factor en una variable particular

la suma de los cuadrados de los pesos de cualquier columna de la matriz factorial son los eigenvalues (indican la cantidad total de varianza que explica ese factor)

Análisis factorial

las cargas factoriales pueden tener como valor máximo 1, por tanto el valor máximo que puede alcanzar el valor propio es igual al número de variables

comunalidad: la proporción de la varianza explicada por los factores comunes en una variable

la comunalidad es la suma de los pesos factoriales al cuadrado en cada una de las filas

Análisis factorial

Gráfico de cargas (loadings)

Análisis factorial

se puede realizar el mismo procedimiento empleando compuestos “sospechosos”:

benzo[k]fluoranteno (lmax= 245, 305 nm)

benzo[b]fluorantreno (lmax= 245, 265, 285 nm)

perileno (lmax= 245, 265 nm)

antraceno (lmax= 245 nm)

Análisis factorial

Espectros UV simplificados de los compuestos estudiados: B[k]F, B[b]F, perileno y antraceno

Análisis factorial

por comparación de la matriz de predicción con la matriz hipotética de los compuestos “sospechosos” se demuestra que B[k]F, B[b]F y P correlacionan bien con la mezcla

espectro UV simplificado de antraceno: espectro real, espectro predicho

el antraceno puede ser excluido de la mezcla de PAH

RECONOCIMIENTO DE PAUTAS - UNP

Documents

Transcript of RECONOCIMIENTO DE PAUTAS - UNP