RECONOCIMIENTO DE PAUTAS - UNP
Transcript of RECONOCIMIENTO DE PAUTAS - UNP
RECONOCIMIENTO DE PAUTAS
ANÁLISIS DE COMPONENTES PRINCIPALES
Análisis multivariante:
el volumen bruto de los datos dificulta el reconocimiento de
pautas y relaciones
la matriz de correlación posee cientos de valores
las variables pueden presentar cierta correlación algo de
la información resulta redundante
Análisis de componentes principales
es un técnica que permite, cuando las variables están correlacionadas:
reducir la cantidad de datos
perder la menor cantidad de información
pocos factores explicarán gran parte de la variabilidad total
Análisis de componentes principales
Se aproxima la matriz de datos originales (X) al producto de
dos matrices más pequeñas más una matriz de error (E):
X = T ∙ P + E
T: matriz de puntuación (scores): tiene tantas filas (I) como
X y tantas columnas (J) como componentes principales (A)
P: matriz de carga (loadings): tiene tantas columnas como X
y tantas filas como A
A ≤ I, J
scores
Análisis de componentes principales
T (scores): sus columnas son vectores de puntuación (ta)
P (loadings): sus filas son vectores de carga (pa)
cada componente A se caracteriza por un par de vectores
llamados autovectores o vectores propios (eigenvectors)
a cada A le corresponde un autovalor (eigenvalue)
Análisis de componentes principales
Propiedades de los autovectores
los vectores son mutuamente ortogonales
cada pa (loading) está normalizado
si las columnas están centradas por la media: el coeficiente
de correlación entre cualquier dos ta (scores) = 0
a ≠ b
Los datos se pueden representarsolo en dos dimensiones
PCA es equivalente a unarotación de los ejes originales
Puntos de datos
Proyección sobre los ejes
Análisis de componentes principales
Los datos son reconstruidos de tal manera que se obtengan variables (en número reducido) no correlacionadas
Análisis de componentes principales
PCA es un método matemático para reducir datos
Se puede establece un modelo para cada elemento de X:
Estimación del número de componentes principales
Idealmente sería el número de componentes bajo observación
Número de componentes significativos está dado por el rango de la matriz
El número de componentes está distorsionado por el ruido
Debe decidirse el número de CP empleando distintos criterios
Criterios para estimar el número de componentes principales
Porcentaje de la varianza explicada: se calcula la fracción de la varianza acumuladasi se usan todos los CP posibles se explica el 100 % de la varianza
Criterio del autovalor uno: sólo los CP con autovalores mayores que 1 son considerados importantes cuando se usa la matriz de correlación
Criterios para estimar el número de componentes principales
Gráfico de ladera (scree-test): los niveles de varianza residual (o los autovalores) disminuyen cuando se alcanza el número apropiado de CP
CP
autovalores
Criterios para estimar el número de componentes principales
Validación cruzada (cross validation): se remueve cada objeto de la matriz X y se vuelve a calcular el modelo con los datos remanentes (leave-one-out method)se calcula el error, llamado suma de los cuadrados del error residual predicho (PRESS) y el número de CP se obtiene del menor valor
Análisis de componentes principales
Un ejemplo
al investigar un crimen se recogió cabello humano
para intentar resolver el crimen se tomaron muestras de cabello de tres sospechosos
además de análisis morfológicos, se realizó un análisis elemental
Cabello Cu (ppm) Mn (ppm) Cl (ppm) Br (ppm) I (ppm)
1 9,2 0,30 1730 12,0 3,6
2 12,4 0,39 930 50,0 2,3
3 7,2 0,32 2750 65,3 3,4
4 10,2 0,36 1500 3,4 5,3
5 10,1 0,50 1040 39,2 1,9
6 6,5 0,20 2490 90,0 4,6
7 5,6 0,29 2940 88,0 5,6
8 11,8 0,42 867 43,1 1,5
9 8,5 0,25 1620 5,2 6,2
Análisis de componentes principales
Análisis de componentes principales
realizar un PCA de los datos empleando Minitab
Eigenanalysis of the Correlation Matrix
CP1 CP2 CP3 CP4 CP5Eigenvalue 3,3523 1,1824 0,2852 0,1351 0,0450Proportion 0,670 0,236 0,057 0,027 0,009Cumulative 0,670 0,907 0,964 0,991 1,000
dos componentes explican la varianza del 90 % de los datos
Análisis de componentes principales
Scree-plot
Análisis de componentes principales
Gráfico de Scores
para los dos primeros CP
la proyección lineal de objetos representa la mayor parte de la varianza total de los datos
se observan agrupamientos de objetos
Análisis de componentes principales
Scores
tres grupos, pertenecientes a los cabellos de cada sospechoso
Análisis de componentes principales
Gráfico de Loadings
brinda información sobre la correlación de las características de las variables estudiadas
a menor ángulo, mayor correlación
características no correlacionadas son ortogonales
la importancia de un CP se estima a partir de su tamaño
Análisis de componentes principales
Loadings
todos los elementos son importantes para describir a CP1sólo I y Br describen a CP2
correlacionadas
RECONOCIMIENTO DE PAUTAS
ANÁLISIS FACTORIAL
(FA- FACTOR ANALYSIS)
Análisis factorial
es un técnica de reducción de datos, empleada originalmente en psicología
emplea un número pequeño de factores comunes (variables) a cada factor se le asigna una propiedad que no se puede observar directamente (ej. memoria)
las propiedades se arreglan en filas y las muestras en columnas
los factores abstractos se transforma en factores interpretables por métodos de rotación
Análisis factorial
se aproxima la matriz de datos originales (X):
X = F ∙ L + E
F: matriz de puntuación (scores): contiene los valores de las
propiedades de d factores
L: matriz de carga (loadings): caracteriza cada factor por p
variables
E: consiste de p-d factores remanentes (o factores específicos,
generalmente interferencias, ruido)
Análisis factorial
Ejemplo: cromatografía
Análisis factorial
Primer problema: estimar la matriz de carga (L)
Métodos:
Componentes principales
Máxima probabilidad (maximum likelihood)
Análisis de factores canónico
Método centroide
Minitab
métodositerativos
Análisis factorial
la matriz de carga óptima se obtiene por rotación de factores
la rotación puede ser:
ortogonal (para factores independientes): se rota el sistema de coordenadas, la matriz L se multiplica por una matriz de transformación T
Lrot= L. T
oblicua (factores correlacionados): oblimin
Métodos de rotación (transformación)
varimax: la varianza de los cuadrados de los loadings de un factor es máxima (los factores se describen con el menor número de variables posible)
quartimax: la varianza de los cuadrados de los loadings de una variable es máxima (se expresa cada variable por el menor número de factores posibles)
….
Análisis factorial
Un ejemplo
se investiga la composición de una mezcla de contaminantes orgánicos, hidrocarburos aromáticos policíclicos (PAH)
se emplea cromatrografía (HPLC-DAD) y espectroscopia UV-Vis
tiempo de longitud de onda (nm)retención (min) 245 265 285 305 325
6,4 7,81 4,83 4,367 0,944 1,7756,5 84,33 52,69 56,100 12,890 20,7306,6 161,58 99,30 108,430 26,920 39,0266,7 173,33 77,89 97,260 39,368 28,6706,8 274,70 63,92 82,160 47,150 20,0606,9 218,92 36,95 39,820 25,580 10,4907,0 79,04 12,07 10,580 6,536 3,230
Análisis factorial
datos de absorbancia de un cromatograma HPLC-DAD de una mezcla de PAH
Análisis factorial
cromatograma HPLC de una mezcla de PAHpicos no resueltos (superpuestos)
Análisis factorial
Scree-plothay tres factores comunes significativos
Análisis factorial
se realiza un análisis factorial de los datos con Minitab
Unrotated Factor Loadings and Communalities
Variable Factor1 Factor2 Factor3 Communality245 nm 0,779 -0,606 0,159 1,000265 nm 0,958 0,282 0,050 1,000285 nm 0,979 0,195 -0,058 1,000305 nm 0,892 -0,417 -0,177 1,000325 nm 0,905 0,423 0,047 1,000
Variance 4,0973 0,8383 0,0644 5,0000% Var 0,819 0,168 0,013 1,000
Análisis factorial
cada elemento de la matriz puede interpretarse como índices de correlación entre el factor i y la variable j
idealmente: cada variable cargue alto en un factor y bajo en los demás
el cuadrado de una carga factorial indica la proporción de la varianza explicada por un factor en una variable particular
la suma de los cuadrados de los pesos de cualquier columna de la matriz factorial son los eigenvalues (indican la cantidad total de varianza que explica ese factor)
Análisis factorial
las cargas factoriales pueden tener como valor máximo 1, por tanto el valor máximo que puede alcanzar el valor propio es igual al número de variables
comunalidad: la proporción de la varianza explicada por los factores comunes en una variable
la comunalidad es la suma de los pesos factoriales al cuadrado en cada una de las filas
Análisis factorial
Gráfico de cargas (loadings)
Análisis factorial
se puede realizar el mismo procedimiento empleando compuestos “sospechosos”:
benzo[k]fluoranteno (lmax= 245, 305 nm)
benzo[b]fluorantreno (lmax= 245, 265, 285 nm)
perileno (lmax= 245, 265 nm)
antraceno (lmax= 245 nm)
Análisis factorial
Espectros UV simplificados de los compuestos estudiados: B[k]F, B[b]F, perileno y antraceno
Análisis factorial
por comparación de la matriz de predicción con la matriz hipotética de los compuestos “sospechosos” se demuestra que B[k]F, B[b]F y P correlacionan bien con la mezcla
espectro UV simplificado de antraceno: espectro real, espectro predicho
el antraceno puede ser excluido de la mezcla de PAH