Metabolomics
description
Transcript of Metabolomics
METABOLOMICSPCA – Principal Component Analysis
Modelos y Datos Todos los estudios arrojan datos En cada estudio se miden variables Pregunta común
Cuales variables están relacionadas a un efecto? Se desarrolla un modelo que compara los valores de
variables En distintas clases, Lineal o no lineal, etc.
Algunos estudios pueden tener muchas variables Como genómica funcional !
Se requieren métodos que puedan disminuir la cantidad de variables, filtrándolas o transformándolas
Principal Components Analysis – Análisis de Componentes Principales -PCA
PCA es una técinica de TRANSFORMACIÓN LINEAL Proyecta los datos en direcciones mas
convenientes Al mismo tiempo reduce la cantidad de
variables (muy útil) La tranformación involucra crear
Componentes que remplazan a las variables originales
PCA – PCA reduce la cantidad de datos
asumiendo que algunas variables pueden estar correlacionadas
Si hay variables correlacionadas, solo es necesaria una de ellas para obtener información
Las componentes principales se diseñan para capturar la máxima varianza
Ejemplo: Cual es la dirección de la
máxima varianza ? Variable 1
Varia
ble
2
PCA - Perpendicularidad Las componentes principales son
perpendiculares Representación gráfica:PC1
PC2
Eliminación de variación
capturada en PC1
Siguiente dirección de máxima variabilidad(PC2)
PCA – Componentes Ordenadas La primera componente principal tendrá
la mayor variabilidad (por diseño) La segunda capturará la siguiente mayor
variabilidad y perpendicular a la primera Etc.
Importance of components: PC1 PC2 PC3Standard deviation 2.482 1.486 0.5648Proportion of Variance 0.709 0.254 0.0367Cumulative Proportion 0.709 0.963 1.0000
PC3 no explica mucha varianza, podría representar ruido
PC1
PC2PC3
Varianza x Componente
PCA - Método
XT – data, zero mean(standardized data)
Matrix of Weights
Matrix of "Principal Components"
PC1 = w11*x1 + w12*x2 + w13*x3 + … where xi = vector from sample iPC2 = w21*x1 + w22*x2 + w23*x3 + …
… PC’s are orthogonalsPCA is an "optimal" linear combination of the original variables
PC are SORTED in a way that PC1 captures the major variability of the data, then PC2 captures the next "component" and so on…. The task is then detect the component that is related OUTCOME
Wij son usados para seleccionar las variables “importantes” según la PC que este relacionada al efecto deseado
PCA – Métodos para encontrar W Varios métodos
Generalmente usan SVD (Singular Value Decomposition)
Covarianza Optimización
Todos arrojan los mismos resultados PCA es ya relativamente fácil de hacer y
casi todos los paquetes estadísticos lo implementan
Encontrar los PCs que mejor “separan” a los datos
Common Metabolomics Methods - PCA
XT – data, zero mean(standardized data)
PC1
53.06873(53.1%)
1 (8)2 (10)
-4 -2 0 2
-10
-6-2
02
4
-10 -6 -2 0 2 4
-4-2
02
PC2
16.50985(69.6%)
1 (8)2 (10)
Principal Components
Model:(5,690,544,19,167,98,92,87,1744,705,543,459,192,16,626,1787,302,1783,204,246,775,1798,1784,1622,1796,1745,684,778,1791)
Chronic Uveitis (CU)Lens-induced Uveitis (LIU)
PCx
PCy
Clusters en MeV