Desarrollo de técnicas de clustering en datos de ...

215
i TRABAJO FIN DE GRADO INGENIER ´ IA EN TELECOMUNICACIONES Desarrollo de técnicas de clustering en datos de espectrometría de masas orientadas a la detección automática de compuestos Autor Miguel Ángel Bellido Manganell Director Ángel De La Torre Vega Escuela técnica superior de Ingenierías Informática y de Telecomunicación Granada, Junio de 2014

Transcript of Desarrollo de técnicas de clustering en datos de ...

Page 1: Desarrollo de técnicas de clustering en datos de ...

i

TRABAJO FIN DE GRADO

INGENIERIA EN TELECOMUNICACIONES

Desarrollo de técnicas de clustering en datos de

espectrometría de masas orientadas a la detección

automática de compuestos

Autor Miguel Ángel Bellido Manganell

Director

Ángel De La Torre Vega

Escuela técnica superior de Ingenierías Informática y de

Telecomunicación

Granada, Junio de 2014

Page 2: Desarrollo de técnicas de clustering en datos de ...

ii

Page 3: Desarrollo de técnicas de clustering en datos de ...

iii

Page 4: Desarrollo de técnicas de clustering en datos de ...

iv

Page 5: Desarrollo de técnicas de clustering en datos de ...

v

Desarrollo de técnicas de clustering en datos de

espectrometría de masas orientadas a la detección

automática de compuestos

Autor Miguel Ángel Bellido Manganell

Director

Ángel De La Torre Vega

Page 6: Desarrollo de técnicas de clustering en datos de ...

vi

Page 7: Desarrollo de técnicas de clustering en datos de ...

vii

Desarrollo de técnicas de clustering en datos de espectrometría de masas orientadas a la detección automática de compuestos

Miguel Ángel Bellido Manganell

Palabras clave: espectrometría de masas, detección automática de compuestos,

cromatografía líquida, HPLC, ESI, MS, TOF.

Resumen

En este trabajo se ha desarrollado un método automático para la detección de compuestos químicos en datos proporcionados por instrumentos de cromatografía acoplada a espectrometría de masas. A partir de los datos espectrométricos correspondientes a una muestra química compleja (por ejemplo, un extracto vegetal o una muestra biológica), el método proporciona una valoración cuantitativa y una caracterización (en términos de perfil cromatográfico y huella espectrométrica) de cada compuesto químico detectado en la muestra. El método propuesto se ha aplicado a datos de cromatografía líquida de alta resolución acoplada a un espectrómetro de masas por tiempo de vuelo mediante una interfaz de ionización por electro-spray (HPLC-ESI-TOFMS) usando colecciones de muestras simples (matrices resultantes de mezclar en laboratorio estándares de compuestos fenólicos disponibles comercialmente) y de muestras complejas (extractos fenólicos de aceite de oliva virgen extra).

El objetivo del trabajo se ha centrado en el diseño e implementación del método de detección automática de compuestos químicos, así como la evaluación cuando es aplicado a muestras simples (donde el número de compuestos es pequeño y éstos se conocen a priori) o a muestras complejas (donde hay presente un gran número de compuestos, algunos de ellos con concentraciones bajas, próximas al límite de detección instrumental o al fondo de ruido).

Frente a los procedimientos convencionales de detección de compuestos (basados en la detección de picos de las señales cromatográficas), el método propuesto analiza simultáneamente las características cromatográficas y espectrométricas. La identificación de compuestos se realiza comparando de forma automática los cromatogramas de ion extraído para cada intervalo de tiempo de retención mediante una distancia basada en la proyección funcional de las señales cromatográficas. Este criterio permite asociar las distintas especies iónicas generadas por cada compuesto en los procesos de ionización que tienen lugar en el equipo de espectrometría de masas. De este modo, el método proporciona los compuestos detectados en la muestra, así como una cuantificación de cada uno de ellos y su caracterización cromatográfica (tiempo de retención y perfil cromatográfico) y espectrométrica (relaciones m/z de los distintos iones asociados al compuesto correspondientes al ion principal, fragmentos, clusters de iones y sus variantes isotópicas asociadas, junto con las intensidades relativas para cada ion).

En esta memoria se describe el trabajo realizado para desarrollar el método propuesto, y el resultado de aplicarlo tanto a muestras simples como a muestras complejas. En el caso de las muestras simples (donde se conocen a priori los resultados esperables) se ha comprobado el correcto funcionamiento del método. En el caso de las muestras complejas se demuestra el potencial del método para detectar

Page 8: Desarrollo de técnicas de clustering en datos de ...

viii

compuestos que difícilmente serían detectables mediante un análisis manual de los datos realizado por un experto. El análisis manual de datos resulta poco eficaz para detectar compuestos en situaciones de coelución (esto es, cuando el perfil cromatográfico de dos o más compuestos está solapado), bastante frecuentes en muestras complejas. El método propuesto se ha mostrado muy útil para la detección de compuestos en los casos de coelución. El estudio de los resultados permite además identificar las limitaciones del método desarrollado en su actual fase, así como las mejoras necesarias para optimizarlo.

La implementación del método propuesto ha requerido, además, desarrollar algoritmos rápidos de pre-procesado de los datos para eliminar ruido (iónico y electrónico) y artefactos químicos (asociados a la fase fija o la fase móvil en la columna cromatográfica). La aplicación de los algoritmos de pre-procesamiento antes de aplicar el método de detección de compuestos hace que su ejecución sea más rápida y que se obtengan resultados con menor número de falsos positivos.

Finalmente, se ha implementado un algoritmo de pos-procesamiento para comparar las identificaciones de compuestos en las distintas muestras de una colección y de este modo unificar la lista de compuestos identificados sobre la colección de muestras (y no sobre cada una de las muestras por separado). De esta forma, la información HPLC-ESI-TOFMS de la colección de muestras quedaría compactada en dos tablas: una de ellas donde se especifica la presencia de cada compuesto en cada muestra de la colección, y la segunda donde se caracteriza (en términos de perfil cromatográfico y huella espectrométrica) cada compuesto detectado en las muestras de la colección. Esta representación de los compuestos presentes en la colección de muestras resulta de gran utilidad para el estudio estadístico de las muestras en ensayos biológicos orientados a identificar compuestos bioactivos o con utilidad diagnóstica.

Los resultados experimentales presentados en este trabajo revelan el potencial del método propuesto para el procesamiento automático de datos de cromatografía acoplada a espectrometría de masa, y sugieren líneas de trabajo futuro para incorporar mejoras, permitiendo el análisis apropiado de los datos para muestras complejas y colecciones de muestras complejas.

Page 9: Desarrollo de técnicas de clustering en datos de ...

ix

Development of clustering techniques oriented to automatic compounds detection in mass spectrometry data

Miguel Ángel Bellido-Manganell

Keywords: mass spectrometry, automatic compound detection, liquid chromatography,

HPLC, ESI, MS, TOF.

Abstract

In this work we have developed an automatic method for the detection of

chemical compounds in data provided by chromatography coupled to mass spectrometry instruments. From the spectrometric data corresponding to a complex chemical sample (for example, a plant extract or a biological sample), the method provides a quantitative estimation and a characterization (in terms of chromatographic profile and spectrometric finger-print) for each chemical compound detected in the sample. The proposed method has been applied to data from High Performance Liquid Chromatography coupled to a Time-Of-Flight Mass Spectrometer through an Electro-Spray Ionization interface (HPLC-ESI-TOFMS) using collections of simple samples (i.e. matrices resulting from mixing commercially available standard phenolic compounds at laboratory), and complex samples (phenolic extracts from extra virgin olive oil).

The objective of this work is focused on the design and implementation of the

automatic method for detection of chemical compounds, as well as the evaluation when it is applied to both simple samples (where the number of compounds is small and they are a priori known) and complex samples (where there is a high number of compounds, some of them at low concentration, close to the instrumental limit of detection or to the noise background).

In contrast to the conventional procedures for compound detection (those based

on peak detection from chromatographic signals), the proposed method analyzes the chromatographic and spectrometric profiles jointly. The compound identification is carried out by automatically comparing the extracted ion chromatograms for each retention time interval by means of a distance based on the function projection of the chromatographic signals. This criterion provides an association of the different ionic species generated by each compound during the ionization processes that take place in the mass spectrometry instrument. This way, the method provides the compounds detected in the sample, as well as a quantification of each one, its chromatographic characterization (retention time and chromatographic profile), and its spectrometric characterization (m/z ratios for the ions associated to the compound, corresponding to the main ion, ion fragments, ion clusters and their respective isotopic variants, and the relative intensities for each ion).

In this report we describe the work carried out to develop the proposed method

and the results obtained when it is applied to both simple and complex samples. In the case of the simple samples (where the expectable results are known a priori) the proper performance of the method has been verified. In the case of complex samples, the results show that the method is able to detect compounds which would hardly be

Page 10: Desarrollo de técnicas de clustering en datos de ...

x

detectable with a manual analysis carried out by an expert. The manual analysis is not able to detect compounds under co-elution situations (i.e. when the chromatographic profile from two or more compounds is overlapped), a very common situation in the case of complex samples. The proposed method is shown as a very useful method for the detection of compounds in co-elution situations. The analysis of the experimental results also allows the identification of the limitations in the proposed method in the current development stage, as well as the improvements required for its optimization. The implementation of the proposed method has required the development of fast pre-processing algorithms to be applied to the data in order to remove noise (both ionic and electronic) and chemical artifacts (associated to the stationary phase and the mobile phase in the chromatographic column). The application of the pre-processing algorithms before applying the method for compound detection makes the execution faster and provide better results (with a lower number of false positives).

Finally, a post-processing algorithm has been implemented in order to compare the compound identification along the different samples in a collection, and this way, providing a unified list of identified compound for the collection (and not and independent list for each sample). With this post-processing, the HPLC-ESI-TOFMS information from the collection of samples would be compacted with two tables: the first one specifies the abundance of each compound in each sample in the collection, and the second table characterizes each compound detected in the sample collection (in terms of the chromatographic profile and spectrometric finger-print). This compact representation of the compounds identified in the sample collection is very useful for the statistical study of the samples in biological assays oriented to the identification of bioactive compounds or compounds with potential interest for diagnostic.

The experimental results presented in this work reveal the potential of the

proposed method for the automatic processing of the data from chromatography coupled to mass spectrometry, and also suggest lines for future work oriented to improve the method in order to provide an appropriate analysis of the data from complex samples and from collection of complex samples.

Page 11: Desarrollo de técnicas de clustering en datos de ...

xi

Page 12: Desarrollo de técnicas de clustering en datos de ...

xii

Yo, Miguel Ángel Bellido Manganell, alumno de la titulación de

Grado en Ingeniería de Tecnologías de Telecomunicación de la

Escuela Técnica Superior de Ingenierías Informática y de

Telecomunicación de la Universidad de Granada, con DNI

77138344-R, autorizo la ubicación de la siguiente copia de mi

Trabajo Fin de Grado en la biblioteca del centro para que pueda ser

consultada por las personas que lo deseen.

Fdo: Miguel Ángel Bellido Manganell

Granada a 1 de Julio de 2014.

Page 13: Desarrollo de técnicas de clustering en datos de ...

xiii

Page 14: Desarrollo de técnicas de clustering en datos de ...

xiv

D. Ángel De La Torre Vega, Profesor del Grado en Ingeniería de Tecnologías de Telecomunicación del Departamento de Teoría de la Señal, Telemática y Comunicaciones de la Universidad de Granada.

Informa:

Que el presente trabajo, titulado Desarrollo de técnicas de

clustering en datos de espectrometría de masas orientadas a la

detección automática de compuestos, ha sido realizado bajo su

supervisión por Miguel Ángel Bellido Manganell, y autorizo la defensa

de dicho trabajo ante el tribunal que corresponda.

Y para que conste, expide y firma el presente informe en Granada a 1

de Julio de 2014.

El director:

Ángel De La Torre Vega

Page 15: Desarrollo de técnicas de clustering en datos de ...

xv

Page 16: Desarrollo de técnicas de clustering en datos de ...

xvi

Agradecimientos

Me gustaría agradecer a mi familia su apoyo a lo largo de todo el transcurso del trabajo, ya que me han motivado para trabajar de forma constante y para compatibilizar este trabajo con otros aspectos de la vida no menos importantes. A mis compañeros y amigos me gustaría agradecerles todo el tiempo que han dedicado a escuchar mis dudas y problemas.

A mi tutor, Ángel De La Torre, me gustaría agradecerle la dedicación y paciencia que ha tenido para explicarme cualquier cosa relacionada con el trabajo, así como su rápida disposición para tener tutorías y todo el tiempo que me ha reservado para éstas.

También me gustaría agradecer a la Universidad de Granada todos los

acuerdos que tiene con revistas y organizaciones científicas, ya que me han permitido

consultar artículos y libros que, de otra forma, hubiesen resultado muy difíciles de

obtener.

Cada una de las personas que se sientan identificadas con estos

agradecimientos ha de saber que, en un momento u otro del trabajo, me ha dado

fuerzas para continuar, cada uno/a de una forma diferente pero todas

complementarias.

Page 17: Desarrollo de técnicas de clustering en datos de ...

1

Índice Resumen ..................................................................................................................... vii

Abstract ....................................................................................................................... ix

Agradecimientos ......................................................................................................... xvi

Índice ............................................................................................................................ 1

1. Contexto del trabajo fin de grado. .......................................................................... 3

1.1. Análisis químico de muestras mediante espectrometría de masas y técnicas cromatográficas. ........................................................................................................ 7

1.1.1. Cromatografía. ......................................................................................... 7

1.1.2. Interfaz entre cromatografía líquida y espectrómetro de masas. .............. 9

1.1.3. Espectrómetro de masas. ...................................................................... 10

1.2. Caracterización de compuestos en una muestra. ......................................... 18

2. Objetivos y metodología. ..................................................................................... 19

2.1. Objetivo principal. ......................................................................................... 19

2.2. Objetivos secundarios. ................................................................................. 20

2.3. Metodología. ................................................................................................. 23

2.3.1. Identificación del problema y solución propuesta. .................................. 23

2.3.2. Validación y evaluación del método. ...................................................... 24

2.3.3. Formas de mostrar los datos. ................................................................ 25

2.3.4. Colecciones de muestras utilizadas. ...................................................... 34

2.3.5. Estudio de la respuesta instrumental a los compuestos. ........................ 41

2.4. Consecuencias del paso de espectro suma a espectro de línea. .................. 56

2.5. Análisis del ruido........................................................................................... 57

2.6. Preprocesamiento de las muestras. .............................................................. 66

2.6.1. Manipulación de datos obtenidos por el espectrómetro de masas. ........ 66

2.6.2. Aplicación de un umbral de intensidad................................................... 67

2.6.3. Algoritmo de reducción de ruido. ........................................................... 68

2.6.4. Limitación del tiempo de retención. ........................................................ 71

3. Realización. ......................................................................................................... 76

3.1. Implementación de la herramienta para detección y caracterización de compuestos en muestras obtenidas mediante HPLC-ESI-TOF. .............................. 76

3.1.1. Primer paso. Búsqueda de los iones más abundantes. ......................... 78

3.1.2. Segundo paso. Detección de ion principal de cada compuesto. ............ 83

3.1.3. Tercer paso. Búsqueda de iones secundarios para cada ion principal. .. 86

3.1.4. Cuarto paso. Cálculo de características de las especies iónicas asociadas a cada compuesto. .............................................................................. 87

3.1.5. Quinto paso. Almacenar y mostrar resultados en forma de tablas. ........ 88

3.2. Método de identificación y eliminación de artefactos químicos. .................... 90

3.3. Método de agrupación de compuestos de una colección de muestras. ........ 98

Page 18: Desarrollo de técnicas de clustering en datos de ...

2

4. Resultados y comprobación. .............................................................................. 100

4.1. Identificación de artefactos químicos en ambas colecciones. ..................... 100

4.2. Aplicación del método de detección y caracterización de compuestos a una muestra simple sin eliminar artefactos químicos. .................................................. 104

4.3. Aplicación del método de detección y caracterización de compuestos a una muestra simple preprocesando los artefactos químicos. ....................................... 110

4.4. Resultados obtenidos para una muestra de la colección de aceites. .......... 113

4.5. Resultados obtenidos al aplicar el método de agrupación de compuestos a una colección de muestras. ................................................................................... 129

5. Conclusiones y líneas futuras. ........................................................................... 131

5.1. Trabajo general realizado. .......................................................................... 131

5.2. Método principal. Detección y caracterización de compuestos en una muestra HPLC-TOF/MS. ..................................................................................................... 133

5.3. Método secundario. Identificación y supresión de artefactos químicos. ...... 135

5.4. Método secundario. Comparación y agrupación de compuestos para una colección de muestras. .......................................................................................... 136

5.5. Conclusiones académicas. ......................................................................... 136

6. Bibliografía. ........................................................................................................ 139

7. Apéndices. ......................................................................................................... 141

7.1. Apéndice 1. Compuestos detectados y caracterizados sobre la muestra 15 de la colección de matrices de estándares sin artefactos químicos. ........................... 141

7.2. Apéndice 2. Cromatogramas de ion extraído de las masas en las que se ha detectado la presencia de un artefacto químico. ................................................... 145

7.3. Apéndice 3. Picos cromatográficos principales de cada compuesto detectado en la muestra 1 de la colección de aceites de oliva. .............................................. 160

7.4. Apéndice 4. Compuestos encontrados en las 22 muestras de aceites de oliva, sin incluir las huellas espectrométricas. ................................................................. 174

7.5. Apéndice 5. Resultados de la agrupación de compuestos de todas las muestras de la colección de matrices de estándares. ........................................... 197

Page 19: Desarrollo de técnicas de clustering en datos de ...

3

1. Contexto del trabajo fin de grado.

Este trabajo de fin de grado se ha realizado en el contexto de una colaboración iniciada en el 2008 entre el Departamento de Teoría de la Señal, Telemática y Comunicaciones, el Departamento de Química Analítica y el Centro de Investigación y Desarrollo del Alimento Funcional (CIDAF). Esta colaboración ha visto sus frutos en el desarrollo de numerosos proyectos y contratos de investigación, estudios, publicaciones, congresos, tesis doctorales y trabajos de fin de carrera.

Las técnicas de cromatografía líquida acoplada a espectrometría de masas

tienen un gran interés a la hora de estudiar muestras químicas complejas para diferentes tipos de investigaciones. Por ejemplo, en los extractos vegetales se pueden requerir análisis para caracterizar los extractos (qué compuestos forman el extracto), para buscar en ellos compuestos con propiedades específicas (por ejemplo compuestos bioactivos) o simplemente para clasificar distintos tipos de extractos. Las muestras biológicas también son comúnmente analizadas utilizando estas técnicas para estudios de farmacocinética, metabolómica (cómo se metaboliza un determinado compuesto) o búsqueda de biomarcados.

El análisis químico de una muestra mediante cromatografía acoplada a

espectrometría de masas (en adelante MS, por sus siglas en inglés Mass Spectrometry) permite separar los compuestos de una muestra en varias dimensiones, lo que permite saber qué compuestos y en qué proporción aparecen en la muestra. La cromatografía proporciona una separación de los compuestos de la muestra en función del tiempo y la espectrometría de masas los separa en función de su relación masa/carga (usualmente simbolizada como m/z). La técnica cromatográfica hace pasar la muestra por un sistema que provoca que los compuestos se separen según su naturaleza y la del sistema, mientras que la técnica de espectrometría de masas ioniza los compuestos para poder calcular su relación masa/carga. La abundancia con la que aparece cada compuesto se mide en función del número de iones que llegan en el tiempo de retención del compuesto, lo que se conoce como intensidad iónica.

En la figura 1 se observa la separación temporal proporcionada por la técnica cromatográfica, concretamente un tipo de cromatografía denominada cromatografía líquida (en adelante LC, por sus siglas en inglés Liquid Chromatography). Como se puede observar en la figura, la cromatografía proporciona una salida que varía en función del tiempo, debido a que los compuestos de la muestra son separados y aparecen, cada uno, en distintos instantes de tiempo (conocidos como tiempos de retención).

Figura 1. Separación de los compuestos de la muestra en función del tiempo.

300 400 500 600 700 800 9000

0.5

1

1.5

2

2.5

3

3.5

4

4.5x 10

5

Tiempo de retención (s)

Inte

nsid

ad

Cromatograma de ion total

Page 20: Desarrollo de técnicas de clustering en datos de ...

4

La espectrometría de masas proporciona una segunda separación en función de las relaciones masa/carga de cada compuesto. La ionización de cada compuesto provoca que éste se descomponga en iones con distintas relaciones masa/carga (conocidas como especies iónicas del compuesto) que forman, junto con algunas variantes del compuesto de las que se hablará más adelante, lo que se conoce como su huella espectrométrica. En la figura 2 se observa la respuesta instrumental de un sistema de cromatografía acoplada a espectrometría de masas (LS-MS) cuando la entrada es una muestra simple. Se han remarcado varios compuestos con un rectángulo para que se pueda observar el tiempo de retención en el que aparece cada compuesto y la huella espectrométrica que forma.

Figura 2. Respuesta instrumental de un sistema de cromatografía acoplada a MS.

La técnica LC-MS aplicada a una muestra provoca una respuesta instrumental que depende de cada compuesto que aparezca en ella, por lo que el objetivo será partir de las señales discretas LC-MS y conocer qué compuestos había en la muestra, así como su abundancia. Para ello, en primer lugar se tiene que detectar la presencia de cada compuesto. Una vez detectada su presencia, se caracteriza de acuerdo a su perfil cromatográfico (intensidad iónica en función del tiempo de retención) y su huella espectrométrica (distribución del compuesto en las distintas relaciones masa/carga para un tiempo de retención concreto). Consultando bases de datos de compuestos químicos o haciendo pruebas más específicas del compuesto caracterizado, se puede identificar al compuesto. Finalmente, se puede cuantificar la concentración del compuesto en la muestra en función de las intensidades que presentan las señales LC-MS que lo caracterizan.

El proceso de detección es sencillo cuando los compuestos están muy

separados entre sí en el tiempo de retención, que es lo que ocurre en las muestras simples (ejemplo en la figura 1). En las muestras complejas el proceso se complica drásticamente al ser habitual que varios compuestos estén presentes en el mismo tiempo de retención (situación conocida como coelución), al no haber sido capaz la técnica cromatográfica de separarlos lo suficiente. Esta coelución entre compuestos provoca que sea más difícil (en ocasiones imposible) diferenciarlos en la respuesta instrumental, ya que sus huellas espectrométricas aparecen mezcladas o enmascaradas (la más abundante enmascara a la menos abundante). Además, la presencia de ruido iónico, electrónico, estadístico y artefactos químicos, añade más dificultad a la detección de los compuestos conforme la relación señal a ruido (en adelante SNR, por sus siglas en inglés Signal to Noise Ratio) disminuye.

Page 21: Desarrollo de técnicas de clustering en datos de ...

5

Actualmente, la detección de compuestos se realiza de forma manual o automática, obteniendo resultados adecuados únicamente para muestras simples. Para muestras complejas la detección manual de compuestos no es viable si hay coelución entre ellos, por lo que es necesario un método automático que detecte y caracterice los compuestos incluso cuando haya coelución.

En este trabajo se ha implementado y evaluado, utilizando la herramienta

Matlab, un método automático para la detección y caracterización de compuestos de una muestra analizada mediante LC-MS. La diferencia entre este método y los implementados hasta el momento, es el enfoque desde el que se han caracterizado los compuestos, ya que se van a caracterizar mediante técnicas de tratamiento de señales digitales.

Como se observa en la figura 1, cada compuesto tiene una forma

cromatográfica (también conocida como perfil cromatográfico) aproximadamente gaussiana. Esta forma cromatográfica depende de la molécula que forma el compuesto y del proceso cromatográfico. Por lo tanto, la forma cromatográfica será igual para todos los iones de la huella espectrométrica del compuesto, ya que al provenir del mismo compuesto, se han visto afectados de igual forma por la técnica cromatográfica. Teniendo esto en cuenta, una especie iónica pertenecerá a un compuesto si su forma cromatográfica es igual que la del compuesto (o la de las especies iónicas que lo caracterizan). El método implementado utiliza esta información para caracterizar un compuesto según las especies iónicas que forman su huella espectrométrica, lo que será complicado ya que, en la práctica, el ruido y las no linealidades provocan que las formas cromatográficas no sean exactamente iguales para las especies iónicas del mismo compuesto. Para comparar los perfiles cromatográficos se ha establecido una medida de distancia entre ellos basada en proyección de vectores. Utilizando esta distancia entre formas cromatográficas, se detectan los compuestos de la muestra y se caracterizan agrupando la huella espectrométrica de cada uno de ellos.

En el trabajo se realiza un estudio de las señales LC-MS para obtener

propiedades de éstas que ayuden a representarlas adecuadamente, a distinguirlas del ruido y a establecer cánones de los perfiles cromatográficos. Tras realizar el estudio, se implementa el método y se evalúa con muestras reales obtenidas mediante LC-MS, obteniendo conclusiones en base a los resultados obtenidos.

Para complementar al método desarrollado, se han implementado y evaluado

dos métodos más a lo largo del trabajo; uno para identificar artefactos químicos de alta intensidad y otro para agrupar los distintos compuestos que aparecen en una colección de muestras. La identificación de artefactos químicos será necesaria para obtener buenos resultados con el método principal, mientras que la agrupación de los compuestos detectados en una serie de muestras, para caracterizar a la colección completa, es una extensión directa del método principal ya que se puede llevar a cabo gracias a sus resultados.

El trabajo se estructura en los siguientes apartados:

Contexto del trabajo fin de grado. En este apartado se realiza una introducción al contexto en el que se desarrolla el

trabajo fin de grado, así como el contenido del mismo.

Objetivos y metodología. En primer lugar se establecen los objetivos del trabajo, tanto principales como

secundarios. Una vez asentados los objetivos, se realiza un estudio de las señales LC-

Page 22: Desarrollo de técnicas de clustering en datos de ...

6

MS y de la respuesta instrumental a los compuestos, para introducir posteriormente la metodología que se ha utilizado a lo largo del trabajo.

Realización. En este apartado se discute la implementación del método de detección y

caracterización de compuestos, así como el desarrollo de los otros métodos desarrollados a lo largo del trabajo.

Resultados y comprobaciones. Tras implementar los métodos, se realizan pruebas que ajusten los parámetros del

método principal, para obtener finalmente los resultados al aplicarlo en muestras de colecciones diferentes. Los resultados son comprobados de varias formas para observar las mejoras que presenta nuestro método frente a los métodos tradicionales, además de analizar sus limitaciones y cómo se pueden superar.

Conclusiones y líneas futuras. En base al trabajo realizado, a los resultados obtenidos y las comprobaciones

realizadas, se expondrán una serie de conclusiones sobre los métodos implementados y sobre las líneas futuras de mejora de dichos métodos, además de conclusiones académicas sobre la aportación del trabajo.

Bibliografía. A lo largo de todo el trabajo se ha usado una serie de fuentes bibliográficas

variadas, que están presentes en este apartado y que se pueden dividir en varios

grupos según la utilidad que han tenido; algunas han servido para comprender los

fundamentos del análisis de compuestos usando técnicas cromatográficas y

espectrometría de masas [1-4, 18-20], otras para comprender problemas que se

presentan y algunas soluciones actuales que se plantean [9-14, 21], algunos artículos

que aportan evidencias de los beneficios de algunos compuestos aquí analizados [15-

17] y artículos que describen los datos que se han manejado en este trabajo [5-8].

Page 23: Desarrollo de técnicas de clustering en datos de ...

7

1.1. Análisis químico de muestras mediante espectrometría de masas y técnicas cromatográficas. La importancia del análisis de muestras mediante espectrometría de masas y

técnicas cromatográficas radica en la necesidad de caracterizar una muestra no sólo por el efecto que pueda tener (por ejemplo un fármaco sobre una persona), sino por la composición que tiene cada muestra (los compuestos que la forman) y que hace que tenga unas propiedades u otras. El estudio de muestras vegetales o biológicas tiene un interés creciente, ya que algunos vegetales presentan propiedades muy beneficiosas para el ser humano y su análisis LC-MS ayuda a identificar qué compuestos presentes en dichos vegetales provocan las propiedades de interés. Además, tiene muchas más aplicaciones que hacen que este campo esté en continuo desarrollo.

A continuación se expondrán una serie de técnicas utilizadas en el análisis de

compuestos, haciendo especial énfasis en el análisis de compuestos mediante el acoplamiento de una técnica cromatográfica líquida acoplada a un espectrómetro de masas por tiempo de vuelo con reflectrón, utilizando como interfaz un proceso de ionización por electrospray.

1.1.1. Cromatografía.

Para realizar la caracterización de una muestra compleja mediante

espectrometría de masas, en primer lugar tenemos que usar una técnica separativa

que permita separar los distintos compuestos que hay en la muestra para poder

diferenciarlos, en la medida de lo posible, entre sí. Si no se realizase este proceso

sería imposible diferenciar entre sí a los compuestos, ya que sus huellas

espectrométricas se mezclarían y solaparían.

Las técnicas cromatográficas se basan en el proceso de que una sustancia

líquida o gaseosa, conocida como fase móvil, haga fluir la muestra por otra sustancia,

generalmente sólida (aunque puede ser líquida), conocida como fase estacionaria,

consiguiendo que los compuestos de la muestra se separen los unos de los otros

según su afinidad a cada una de las fases. El paso de la muestra por la columna

separativa se conoce como elución, y el tiempo que tarda cada compuesto en recorrer

la columna se conoce como tiempo de retención o tiempo de elución.

El proceso separativo se realiza inyectando la fase móvil y la muestra en el

dispositivo que contiene la fase estacionaria, que generalmente es un tubo metálico. Al

conjunto de este dispositivo con la fase estacionaria, se le conoce como columna

separativa. La separación se produce con el flujo de la muestra a través de la columna

separativa, cuando los distintos compuestos de la muestra se ven retenidos en mayor

o menor magnitud por la fase estacionaria, o “atraídos” en mayor o menor magnitud

por la fase móvil. Por lo tanto, si un compuesto tiene mucha afinidad con la fase móvil

y muy poca con la fase estacionaria, el compuesto recorrerá la columna separativa

rápidamente y saldrá del proceso separativo muy rápido. Si, por el contrario, un

compuesto tiene mucha afinidad con la fase estacionaria pero muy poca con la fase

móvil, el compuesto tardará mucho en salir de la columna separativa. En conjunto,

según la fase móvil y la fase estacionaria que se use en el proceso, los compuestos se

separarán más o menos los unos de los otros en función de, entre otras cosas, su

polaridad.

Page 24: Desarrollo de técnicas de clustering en datos de ...

8

Sin embargo, hay que tener en cuenta que la retención de los compuestos en

la columna separativa es un proceso mecano-estadístico dependiente de la

temperatura, lo que provoca que los compuestos no se muevan como un “punto”

discreto, sino que las moléculas de cada compuesto tiendan a distribuirse a lo largo

del volumen que pueda ocupar de la columna cromatográfica, por lo que habrá una

parte del compuesto que irá un poco más rápida del resto y otra parte del compuesto

que irá un poco más lenta que el grueso del compuesto, saliendo en conjunto de la

columna separativa con una forma aproximadamente gaussiana.

El hecho de que los compuestos recorran más rápido o más lento la columna

cromatográfica según las fases móviles y estacionarias que se usen, deja de

manifiesto que, si dos compuestos se ven igualmente afectados por ambas fases,

entonces saldrán de la columna separativa en tiempos parecidos. Teniendo esto en

cuenta y que cada compuesto sale con una forma aproximadamente gaussiana, se

hablará de coelución de varios compuestos cuando, por haberse visto afectados de

igual forma por el proceso cromatográfico, dichos compuestos salgan de la columna

separativa en tiempos parecidos y sus perfiles cromatográficos se solapen entre sí.

A continuación se describen las características más importantes de técnicas

cromatográficas distintas en función del estado en el que se encuentre la fase móvil

(gas o líquido); cromatografía de gases y cromatografía líquida.

Cromatografía de gases (GC).

Esta técnica se utiliza habitualmente para separar muestras volátiles (ya que se

pueden pasar a estado gaseoso fácilmente). En este caso la fase móvil es un gas de

baja densidad que transporta la muestra por una fase estacionaria compuesta por un

líquido adherido a un compuesto sólido. La fase móvil se podrá inyectar a distinto flujo

y presión, mientras que la cantidad de muestra inyectada será regulada por un divisor

de flujo. La columna separativa estará sometida a temperaturas altas para asegurar

que los compuestos están en estado gaseoso.

Cromatografía líquida (LC).

En este caso la fase móvil es un disolvente (o mezcla de varios) elegidos y

manipulados convenientemente para adaptarlos al tipo de muestra que se desea

separar. La fase móvil se puede mantener igual e inyectar de forma continua durante

toda la separación, o bien variar su concentración de distintos disolventes para

optimizar el proceso de separación, lo que se conoce como fase móvil con gradiente.

La fase estacionaria puede ser de dos tipos: sólido poroso o una película adherida a

un soporte sólido. Los rellenos porosos están formados por partículas porosas de un

tamaño de unas pocas micras de diámetro, y compuestas habitualmente por sílice.

En la figura 3 se puede observar un esquema simplificado de un equipo de

cromatografía líquida junto a uno comercial.

Page 25: Desarrollo de técnicas de clustering en datos de ...

9

Figura 3. Esquema simplificado de un equipo de cromatografía líquida junto a uno comercial [18].

La cromatografía líquida se considera de alta resolución (HPLC, por sus siglas en

inglés High Performance Liquid Chromatography) cuando la columna separativa tiene

un diámetro de unos pocos milímetros. Cuando la fase estacionaria está formada por

partículas de diámetro inferior a 2 µm, entonces se conoce generalmente como

cromatografía líquida de resolución rápida (RRLC, por sus siglas en inglés Rapid

Resolution Liquid Chromatography).

1.1.2. Interfaz entre cromatografía líquida y espectrómetro de masas. Para acoplar un dispositivo de cromatografía líquida con un espectrómetro de

masas, hay que tener en cuenta que el espectrómetro de masas ha de recibir una

nube de iones en estado gaseoso, mientras que del dispositivo de cromatografía

líquida sale un flujo líquido continuo durante todo el tiempo de elución de la muestra.

Además, la cromatografía se realiza a presión superior a la atmosférica mientras que

en el espectrómetro de masas se trabaja con varias cámaras a una presión de alto

vacío (para conducir los iones de forma más uniforme). Por lo tanto, se necesita una

interfaz entre el dispositivo de cromatografía líquida y el espectrómetro de masas que

adapte tanto el estado de la muestra (de líquido a nube de iones) como la presión

entre los dispositivos.

A pesar de haberse desarrollado varias interfaces con este objetivo, la técnica

adecuada para muestras como las que se van utilizar en este estudio (muestras con

compuestos fenólicos) es la de ionización por electrospray (ESI, por sus siglas en

inglés ElectroSpray Ionization) que, entre sus características interesantes, se puede

destacar que se realiza a presión atmosférica y que provoca poca fragmentación de

los compuestos (más adelante se explicará en qué consiste la fragmentación).

En la ionización por electrospray, la muestra procedente del cromatógrafo se

conduce a través de un capilar de acero inoxidable sometido a un potencial eléctrico

muy elevado (habitualmente entre 2 y 6 kV) entre su extremo y la entrada del

espectrómetro de masas (situado a continuación). De esta forma, la muestra sale del

capilar en forma de pequeñas gotas sometidas a un gran campo eléctrico y dirigidas

Page 26: Desarrollo de técnicas de clustering en datos de ...

10

por éste hacia la entrada del espectrómetro de masas. Al mismo tiempo las gotas se

ven afectadas por un gas nebulizador que evapora el disolvente presente en la

superficie de la gota (desovaltación), reduciendo su tamaño y provocando que la

densidad de carga eléctrica de la gota aumente. Finalmente, la repulsión de iones de

la misma gota producida por el campo eléctrico supera la tensión superficial de la gota,

alcanzando el límite de Rayleigh, con lo que la gota “explota” (fenómeno conocido

como explosiones de Coulomb) formando otras gotas más pequeñas y también

cargadas que sufrirán el mismo proceso que la anterior hasta que finalmente tan solo

quede una nube de iones, que serán los que entren en el espectrómetro de masas. En

la figura 4 se puede observar un ejemplo del proceso explicado.

Figura 4. Ejemplo de interfaz ESI (ionización por electrospray) [2].

Hay que tener en cuenta que la ionización no determina de forma exacta el

número de cargas con las que será ionizada cada molécula, por lo que el valor de la

relación masa/carga (que es el que calcula el espectrómetro de masas como se verá

más adelante) variará en función del número de cargas que tenga la molécula y de si

la ionización se ha realizado en el modo positivo o negativo. En el modo positivo se

forma el ion quitando uno o más electrones, mientras que en el modo negativo se

forma el ion quitando uno o más protones.

1.1.3. Espectrómetro de masas. El espectrómetro de masas es el instrumento que se usará para obtener la

caracterización de una muestra mediante su espectro de masas. Realmente el

espectrómetro de masas dará un valor de corriente iónica (que será proporcional a la

concentración del compuesto en la muestra) en función de la masa, aunque realmente

no mide la masa de la molécula, sino su relación masa/carga. Es importante

diferenciar entre la masa de una molécula y la relación masa/carga, ya que no es lo

mismo ni tienen las mismas unidades. La masa de una molécula se mide en unidades

de masa atómica (uma) y la relación masa/carga se mide en Daltons (Da). En este

trabajo se hablará siempre de relación masa/carga, ya que los valores que mide el

analizador de masas serán siempre relaciones masa/carga, por lo que, aunque se diga

“masa” en vez de “relación masa/carga”, siempre se estará haciendo referencia a la

relación masa/carga, a no ser que se especifique lo contrario.

Independientemente del tipo de espectrómetro de masas, su estructura viene

compuesta por los siguientes elementos:

Page 27: Desarrollo de técnicas de clustering en datos de ...

11

Sistema de entrada.

Sistema de ionización de la muestra. En el caso que se ha visto, este

proceso se hace mediante la ionización por electrospray.

Acelerador de iones mediante campos eléctricos.

Dispersor de iones según su relación m/z. Esta parte también se

denomina analizador de masas.

Detector de iones que convierta el haz de iones en una señal eléctrica y

acoplado a un sistema de adquisición y pre-procesamiento de datos.

En la figura 5 se puede observar un esquema del espectrómetro de masas,

incluyendo la interfaz ESI inicial. La muestra entra al espectrómetro por el sistema de

entrada, que en este caso (cromatografía líquida de alta resolución acoplada a

espectrómetro de masas por tiempo de vuelo con interfaz de electrospray ionizante, en

adelante HPLC-ESI-MS/TOF) sería la muestra proveniente del sistema de

cromatografía líquida HPLC, y pasa a un sistema de ionización, que está

implementado en la interfaz ESI como se ha explicado. Una vez que la muestra ha

sido ionizada, ha de ser conducida a través de diversas cámaras, cada una de ellas a

una presión más cercana al vacío que la anterior. La conducción de los iones a través

de estas cámaras se realiza por medio de campos eléctricos y, gracias a que la

presión es cada vez más baja, los iones se mueven de forma más uniforme entre sí, lo

que será de interés cuando lleguen al analizador de masas propiamente dicho.

Figura 5. Esquema de espectrómetro de masas con analizador por tiempo de vuelo [18].

Tras recorrer las cámaras con los distintos niveles de vacío, se llega al

analizador de masas, donde se analizará la relación masa/carga de los iones. Hay

diversas técnicas y dispositivos destinados a este fin, pero aquí se explicará de forma

detallada el que se ha usado para obtener los datos que se procesarán, para poder así

comprender el ruido que se observa en los datos de salida. En concreto, la técnica que

Page 28: Desarrollo de técnicas de clustering en datos de ...

12

ha sido usada y que nos permite medir la relación masa/carga de los iones, es la de

tiempo de vuelo (TOF, por sus siglas en inglés Time Of Flight).

El analizador de masas por tiempo de vuelo se basa, fundamentalmente, en

medir el tiempo que tarda cada ion en viajar una distancia conocida, con una energía

determinada, pudiendo estimar así la relación m/z que tiene cada ion.

En líneas generales, los iones habrán sido conducidos al analizador TOF y

agrupados en una zona conocida como “zona de aceleración ortogonal”, donde un

campo eléctrico intermitente los impulsará por una cavidad conocida como “tubo de

vuelo” y, tras reflejarse en un elemento conocido como reflectrón, recorrerán el resto

del tubo de vuelo y llegarán a un detector de iones. En la figura 6 se puede observar

un ejemplo de la estructura de un analizador por tiempo de vuelo con reflectrón.

Figura 6. Estructura de un analizador por tiempo de vuelo con reflectrón [4].

En primer lugar, en la zona de aceleración ortogonal se aplica un campo

eléctrico intermitente, que hace que los iones sean acelerados hacia el tubo de vuelo

con una energía cinética aproximadamente uniforme para todos sus iones. Al recorrer

el tubo de vuelo, los iones más pesados irán más despacio mientras que los menos

pesados lo recorrerán más rápido, separándose los unos de los otros para llegar en

tiempos distintos al detector. Este hecho ya nos pone de relieve que, cuanto mayor

sea el tubo de vuelo, mayor será la diferencia de tiempos de llegada entre los iones

pesados y los iones ligeros, por lo que se aumentará la resolución del analizador.

Sin embargo, hay que tener en cuenta que los iones tienen distinta energía

cinética inicial cuando están en la zona de aceleración ortogonal (antes de que se

aplique el campo eléctrico), por lo que su energía cinética inicial puede estar “a favor”

o “en contra” de la aceleración provocada por el campo eléctrico cuando éste actúe.

Esta energía cinética inicial está asociada a una temperatura no uniforme de los iones,

que provoca una dispersión de velocidades entre ellos y, por tanto, una dispersión de

energía cinética. Además, los iones no se encuentran exactamente en la misma

posición, sino que están dispersos en un volumen que puede hacer que recorran

mayor o menor distancia en el proceso. Por lo tanto, mientras que el grueso de los

iones acelerados tendrá una energía cinética aproximadamente igual, habrá una

porción de iones que tengan más energía cinética que los otros (al tener una energía

cinética inicial constructiva con la provocada por el campo eléctrico), por lo que

tardarán menos en recorrer el tubo de vuelo, y otra porción de iones que, por la razón

Page 29: Desarrollo de técnicas de clustering en datos de ...

13

opuesta, tardarán más en recorrer el tubo de vuelo. Este fenómeno se atenúa

parcialmente colocando el reflectrón, que consiste en un dispositivo que contrarresta la

energía cinética de cada ion por medio de un campo eléctrico variable (mayor cuanto

más nos adentramos en el reflectrón), de forma que cuando los iones llegan al

reflectrón, se ven reflejados antes o después según la energía cinética con la que

llegasen. Por lo tanto, los iones que tenían demasiada energía cinética, tardan más en

reflejarse que los que tenían menos energía cinética, por lo que se compensan esa

dispersión (en parte) haciendo que los iones con la misma m/z lleguen de forma más

uniforme al detector, reduciendo así la problemática dispersión de los tiempos de vuelo

de los iones. Este fenómeno se puede observar en la figura 7, donde se observan

iones de igual masa con mayor o menor velocidad inicial reflejándose de forma

diferente en el reflectrón.

Figura 7. Utilidad del reflectrón en el analizador de masas [1].

Asumiendo que la energía cinética sea uniforme para todos los iones, que

dicha energía es producida por un potencial eléctrico y teniendo en cuenta que la

energía que provoca dicho potencial en una partícula de carga será , entonces se

puede hacer la siguiente relación:

, donde es la masa del ion y es la velocidad final producida por la aceleración.

Si el recorrido total del ion en el tubo de vuelo es (este valor tendrá en cuenta

tanto el doble recorrido que hacen los iones, como la profundidad media a la que

entran en el reflectrón), entonces se puede decir que el tiempo que tarda el ion en

recorrer el tubo de vuelo (tiempo de vuelo, TOF) sería el siguiente:

Si se despeja la velocidad en la primera ecuación, se obtiene:

Page 30: Desarrollo de técnicas de clustering en datos de ...

14

Esta ecuación confirma la idea intuitiva de que un ion con más masa tardará

más tiempo en recorrer el tubo de vuelo pues irá a una velocidad menor.

Si se relacionan las expresiones anteriores, se puede llegar al siguiente

resultado:

Relacionando la carga del ion ( ) con el número de cargas del ion ( ) y la carga

de un electrón ( ), se puede concluir que la carga del ion es igual al producto del

número de cargas, por la carga del electrón. Es decir:

Finalmente, se puede obtener la siguiente relación:

Llegado este punto se observa que los valores que se conocen son la distancia

que recorren los iones ( ), el potencial eléctrico aplicado ( ) y la carga de un electrón

( ). Sin embargo, se desconoce el número de cargas que tiene el ion, porque como se

dijo anteriormente la ionización por electrospray puede ionizar la molécula con una o

varias cargas y no se puede saber a priori cuántas cargas tiene. Por lo tanto, si se

incluyen los valores conocidos en una constante , se desprende que el valor que se

puede obtener con el analizador por tiempo de vuelo no es la masa del ion, sino la

relación masa/carga de dicho ion.

Por lo tanto, si llega un ion tras un tiempo de vuelo , la relación masa carga

del ion se calculará de la forma:

(

)

Esto permite hacer una equivalencia directa entre tiempo de vuelo y relación

masa/carga que hará que los resultados que da el espectrómetro de masas estén

directamente en valores de masa/carga. Realmente las cuentas mostradas contienen

muchas suposiciones, por lo que en el cálculo real se usan coeficientes obtenidos

experimentalmente que obtienen un resultado mucho más preciso.

Teniendo en cuenta los valores típicos de los parámetros en este experimento

(potencial de miles de voltios y longitud del tubo de vuelo de aproximadamente un

Page 31: Desarrollo de técnicas de clustering en datos de ...

15

metro), resolvemos que el tiempo de vuelo de los iones está en el rango de los

microsegundos, por lo que se necesita un detector muy rápido que sea capaz de

aportar precisión suficiente para distinguir relaciones masa/carga cercanas (o

equivalentemente tiempos de vuelo parecidos). Además, las corrientes de iones a la

salida del analizador son muy pequeñas (en el orden de los nanoamperios a decenas

de femtoamperios), por lo que se necesita un amplificador que sea capaz de amplificar

la señal para que pueda ser procesable.

El detector utilizado en la obtención de los datos de esta memoria es un

detector de impacto electrónico, que registra la carga inducida por un ion en una serie

de placas de alto voltaje, transformando la energía del impacto de los iones en señales

eléctricas que pueden ser medibles. Sin embargo, esta detección necesita de una

amplificación previa para tener suficientes impactos y generar una señal eléctrica lo

suficientemente grande, lo que se consigue con el multiplicador de electrones, o

electromultiplicador. El multiplicador de electrones utiliza el principio de emisión de

electrones secundarios, que consiste en hacer incidir el haz de iones en una placa de

cobre y berilio (tradicionalmente), con lo que la placa emite una cantidad de electrones

en proporción directa con el número de iones que recibe. Este haz de electrones

emitido vuelve a incidir sobre otra placa repitiendo el mismo proceso, de forma que al

final de una serie de placas (normalmente entre 10 y 16), el pequeño haz de iones ha

desencadenado un haz de electrones mucho mayor al original, que sí se puede

transformar en una señal de suficiente amplitud por el detector de impacto electrónico.

Finalmente, esta señal eléctrica es amplificada y procesada, con lo que ya tenemos

una intensidad de iones (habitualmente se mide en número de cuentas) para cada

relación masa/carga. Un esquema del multiplicador de electrones se puede observar

en la figura 8.

Figura 8. Multiplicador de electrones [1].

Una vez que el detector convierte el haz de iones en una señal eléctrica

continua en amplitud y tiempo (analógica), se amplifica y pasa al conversor A/D. En el

conversor A/D se tiene que tener en cuenta que hay que cuantizar las corrientes

aunque el compuesto sea poco abundante (ya que limitaría mucho la sensibilidad del

analizador de masas), pero también hay que cuantizar de forma lo más precisa posible

el valor de intensidad producido por una abundancia muy grande de un compuesto.

Por lo tanto, esto obliga a tener un rango dinámico muy grande en el detector, lo que

provoca mucho error de cuantización si no se usan muchos bits para cuantizar. Una

posible solución sería aumentar la cantidad de bits que se utilizan, pero hay que tener

Page 32: Desarrollo de técnicas de clustering en datos de ...

16

en cuenta que la frecuencia de muestreo requerida será muy alta, para tener una

resolución de masa (o tiempo de vuelo) suficiente. Dado que es necesario diferenciar

tiempos de vuelo del orden de microsegundos, las frecuencias de muestreo han de ser

del orden de GHz, por lo que los cuantizadores de la conversión A/D, a una frecuencia

tan alta, requieren un comparador por cada nivel de cuantización, resultando

prohibitivo el uso de conversores A/D de muchos bits. La solución que se implementa

en la práctica es, en vez de medir la corriente iónica producida por muchos iones (que

es lo que satura nuestra conversión A/D), se va a diseñar el sistema para que se

hagan las medidas mucho más rápido pero con muchos menos iones. La idea es la

siguiente:

El campo eléctrico intermitente, que está controlado por un sistema de control para

saber el tiempo que ha pasado desde que se “activa” el campo hasta que se

detecta el ion (para medir la masa), tiene una frecuencia muy rápida para que

únicamente unos pocos iones estuviesen en la zona de aceleración ortogonal y,

por tanto, sean acelerados al tubo de vuelo.

Al ser pocos iones los que viajan por el tubo de vuelo, es menos probable que

interfieran entre sí, por lo que la medida de sus tiempos será mucho más uniforme

si tienen la misma masa y, por tanto, se reducirá la dispersión en el tiempo de

vuelo (por tanto en la masa iónica) de los iones, obteniendo así una mayor

precisión.

Dado que muy pocos iones llegan al detector, la corriente que producen también

es muy pequeña, por lo que se puede usar un número pequeño de bits

(habitualmente se usan 8) para cuantizar la corriente, reduciendo mucho el error

de cuantización.

Cada una de estas pequeñas “tandas de medidas” se conoce como micro-

scan. Una vez que se tiene un número grande de micro-scans, se suman las

intensidades encontradas para cada masa en cada micro-scan, obteniendo así un

valor de intensidad para cada masa que se ha recibido (es decir, para cada tiempo de

vuelo que se ha detectado). El resultado de la suma de los micro-scans (de miles de

ellos) se conoce como espectro de suma (scan spectrum) y se suele obtener un

espectro de suma cada segundo (realmente no será exactamente un segundo como

se verá a lo largo del trabajo).

Una vez llegados a este punto tendremos, para cada tiempo de retención, un

espectro de suma que indicará la intensidad iónica que se ha detectado para cada

valor de relación masa/carga (una señal discreta de intensidad en función de la masa).

Sin embargo, dado que los espectrómetros de masas actuales tienen una precisión del

orden de los miliDaltons (en adelante mDa), y el rango de masas puede ser muy

grande (desde cientos hasta miles de Daltons), guardar la información de todo el

espectro de suma para cada scan requeriría un espacio de almacenamiento enorme,

lo que se ha considerado inviable y ha llevado a una solución que, aunque necesaria,

nos dará problemas a lo largo del trabajo.

El procesado de los espectros suma se realiza en varias etapas. En primer

lugar se eliminan cambios bruscos de intensidad en función de la masa filtrando paso

baja. Con este filtrado se consigue tanto suavizar la forma de los picos

correspondientes a una especie iónica, como alisar el fondo de ruido, atenuando el

Page 33: Desarrollo de técnicas de clustering en datos de ...

17

ruido estadístico asociado a la distribución de velocidades iniciales de los iones que

constituyen cada paquete iónico y atenuando el ruido electrónico asociado a los

distintos elementos del detector, electromultiplicador y amplificador.

Una vez filtradas, se recorren las intensidades para cada relación m/z y se

detectan las duplas intensidad-m/z cuyas intensidades sean máximos locales. A partir

de los valores de masa-intensidad alrededor de un máximo local se obtiene el valor

esperado de la masa y de la intensidad iónica. De este modo se obtiene un valor

esperado de masa que tiene mejor resolución que la proporcionada por la frecuencia

de muestreo en la conversión A/D.

El resultado de realizar este procesamiento sobre el espectro de suma, se

conoce como espectro de línea (o line spectrum), donde tendremos una intensidad y

un valor de masa exacta para cada máximo local identificado en el espectro suma, en

vez de una intensidad para cada muestra de la señal digital del conversor A/D, con lo

que se consigue reducir significativamente el volumen de datos a almacenar o

procesar. Por lo tanto, esta ha sido la forma en la que se han manipulado los datos en

este trabajo. Los espectros de línea se almacenan como valores float de 32 bits en

ficheros de codificación propia de cada fabricante. Por ejemplo, los ficheros de los que

se parte en este trabajo son ficheros .baf generados por el espectrómetro de masas de

la empresa Bruker. Los ficheros de cada fabricante pueden ser leídos utilizando

software propio de dicho fabricante, o bien usar dicho software para convertirlos al

formato XML.

Aunque cada valor del espectro de línea se obtiene como contribución de todos

los iones que llegan en un tiempo de retención con un tiempo de vuelo aproximado, a

lo largo de todo el trabajo se llamará “entrada” o “punto” de un espectro de línea, a

cada triplete tiempo-masa/carga-intensidad que indica un valor de intensidad iónica en

una relación masa/carga concreta, para un tiempo de retención determinado. Por lo

tanto, al hablar de “entrada” de datos HPLC-ESI-TOF ya estará patente el hecho de

que esa entrada ha sido obtenida como contribución de múltiples iones en analizador

de masas.

Hay que tener en cuenta que el uso de una técnica cromatográfica para

separar inicialmente la muestra nos permite diferenciar los compuestos (según su

tiempo de retención y las características concretas de las fases de la cromatografía) al

poder realizar el análisis de masa para dichos compuestos en instantes distintos de

tiempo. Es decir, los compuestos de la muestra se separan unos de otros en el paso

por la columna separativa, llegando unos antes y otros después al analizador de

espectros, de forma que tomando medidas cada cierto tiempo (normalmente se

obtiene un espectro suma por segundo), se podrá caracterizar la muestra tanto en

función de la intensidad que llega para cada relación masa/carga, como en el tiempo

de retención en el que se realiza el scan.

Por lo tanto, gracias a la cromatografía acoplada a la espectrometría de masas,

se puede caracterizar una muestra según la intensidad que presente para cada tiempo

de retención y cada relación masa/carga.

Page 34: Desarrollo de técnicas de clustering en datos de ...

18

1.2. Caracterización de compuestos en una muestra. Hasta el momento las técnicas utilizadas para la detección y caracterización de

compuestos en las muestras (búsqueda de la huella espectrométrica de cada

compuesto) se ha realizado de forma manual o automática.

La forma manual consiste en observar el cromatograma de pico base y ver los

picos que aparecen en él, para saber en qué tiempos de retención buscar cada

compuesto de la muestra. Esta forma es muy sencilla pero para que sea útil es

necesario que los picos cromatográficos de los iones abundantes de los compuestos,

se vean muy diferenciados entre sí, para poder saber dónde está cada compuesto.

Como se ha visto anteriormente, esto no ocurre con las muestras complejas, e incluso

con las muestras simples (sin coelución entre los compuestos), no tiene por qué

observarse el total de los compuestos de la muestra, ya que habrá algunos cuyas

intensidades no superen las de los artefactos químicos asociados a las fases móvil y

estacionaria, y por tanto no se verán en el cromatograma de pico base. La forma

manual es muy laboriosa y requiere el análisis de un experto para distinguir los

compuestos que puedan coeluir (para lo que habrá que mirar cientos de

cromatogramas de ion extraído), pero nos servirá para comprobar los resultados que

obtengamos con nuestra herramienta, como veremos en la metodología del trabajo.

La forma automática consiste en algoritmos que procesen los datos para

obtener la información que haya en ellos. Actualmente estos algoritmos hacen

agrupaciones de entradas de masas y tiempos similares, para después unirlas entre sí

si están en tiempos de retención parecidos, formando la huella espectrométrica del

compuesto. Estos métodos serán útiles en casos sencillos, ya que agruparan la huella

espectrométrica juntando todas las líneas de ésta. Sin embargo, estos métodos no

servirán para diferenciar compuestos que coeluyen, ya que se incluirán en la misma

huella espectrométrica por considerarse el mismo compuesto. Esto deja patente la

necesidad de implementar una herramienta que afronte la caracterización de

compuestos incluso cuando haya coelución entre ellos.

Page 35: Desarrollo de técnicas de clustering en datos de ...

19

2. Objetivos y metodología.

Una vez asentados sobre una base teórica, se pueden explicar de forma detallada los objetivos que se perseguirán en este trabajo.

2.1. Objetivo principal. La búsqueda general de componentes en una muestra se ha hecho

tradicionalmente observando en qué masa se encuentra la intensidad máxima para un tiempo determinado (observando el cromatograma de pico base), identificando así únicamente aquellos compuestos más abundantes en cada rango de tiempos de retención. Esta forma es tremendamente simple y únicamente es necesario un procesamiento básico de los datos, pero únicamente sirve cuando los compuestos están separados en tiempo de retención (es decir, no coeluyen). Sin embargo, cuando hay que analizar muestras complejas que contienen compuestos de distinta masa que coeluyen, no conseguiríamos distinguir ambos compuestos ya que el compuesto más abundante ocultaría a los menos abundantes.

Para analizar muestras más complejas, el proceso ha de ser distinto, ya que seguramente se encontrarán compuestos coeluyendo y habrá que caracterizarlos por separado. Además, este proceso tiene que ser lo más automático y rápido posible, ya que resultaría imposible identificar manualmente todos los compuestos pues habría que recorrer cada masa con precisión de miliDaltons en un rango de cientos de daltons.

El objetivo principal de este estudio será el siguiente:

Implementación de una herramienta para la detección y caracterización automática de compuestos en muestras obtenidas mediante LC-MS.

La idea general es buscar primero los picos de mayor abundancia en el espectro de masas y compararlos entre sí para ver cuáles son el ion principal de un compuesto y cuáles forman parte de la huella espectrométrica de otro compuesto (o de ese mismo). Una vez tenemos el pico correspondiente a la masa más abundante de cada compuesto, se agrupará su huella espectrométrica comparando el pico cromatográfico principal del compuesto, con los picos cromatográficos candidatos a formar parte de su huella espectrométrica (y por tanto formar parte de dicho compuesto).

Con este método no solo se consigue agrupar huellas espectrométricas

caracterizando así cada compuesto, sino que se extrae toda la información importante de un fichero de datos con un volumen elevado, y se compacta en una serie de tablas con la información de los compuestos, de forma que el espacio requerido para su almacenamiento y procesamiento es mucho menor.

Para la implementación se ha usado Matlab y se ha prestado especial

atención a la eficiencia computacional, de forma que tarde lo menos posible (máxima eficiencia), incluso con muestras complejas.

Este objetivo se ha alcanzado en este trabajo y su comprobación tanto en

Page 36: Desarrollo de técnicas de clustering en datos de ...

20

muestras simples como en muestras complejas da buenos resultados, demostrando que esta herramienta es muy útil y muy potente en la caracterización automática de compuestos en muestras obtenidas mediante LC-MS (por sus siglas en inglés, Liquid Chromatography – Mass Spectrometry).

2.2. Objetivos secundarios. Además del objetivo principal de este trabajo, hay varios objetivos secundarios

que se plantearon al inicio del trabajo, y otros objetivos que surgieron para intentar solucionar resultados poco deseables del objetivo principal.

Los objetivos secundarios planteados inicialmente en el trabajo son los

siguientes:

Conocer las fuentes de ruido en los datos de espectrometría de masas y ser manipular convenientemente este tipo de ruido, paliándolo cuando sea necesario y sabiendo explicar salidas incoherentes basándose en la caracterización del ruido y en las posibles fuentes de error.

Este objetivo se ha alcanzado a lo largo del trabajo y ha permitido que se

tomen decisiones de compromiso para alcanzar el objetivo principal, en base a la información que se tiene de las fuentes de ruido y de los problemas del preprocesamiento de datos.

Relacionar los compuestos detectados en varias muestras de una colección. Conseguir este objetivo resultaría muy interesante, ya que habitualmente no se

trabaja con una única muestra para realizar un estudio, sino que se trabaja con una colección de muestras. Por lo tanto, desarrollar un método que relacione los compuestos detectados en una colección de muestras es realmente muy útil para compactar la información de toda la colección y para poder observar rápidamente qué compuestos de la colección aparecen en cada muestra. Sin embargo, este objetivo está íntimamente ligado con el objetivo principal de la práctica, ya que para llegar a comparar los resultados de todo un conjunto de muestras, primero hay que poder obtener los resultados del análisis de cada muestra de forma correcta y eficiente.

En la práctica este objetivo se ha logrado de forma parcial, ya que se ha

implementado un método que realice el objetivo y se ha evaluado con la colección de muestras simples, comprobando que los resultados son correctos para esa colección. No se ha comprobado para la colección de muestras complejas ya que salen muchos resultados y haría falta muchísimo tiempo para comprobarlos todos, por lo que se ha preferido no añadir ese resultado en este trabajo e incluir únicamente los resultados y las comprobaciones para la colección de muestras simples.

A continuación se exponen otros objetivos secundarios que han surgido en el transcurso del trabajo:

Identificación y eliminación de las señales correspondientes a artefactos químicos. Cuando implementemos el método para alcanzar el objetivo principal, veremos

que hay ciertas masas que aparecen de forma continua durante todo el rango de

Page 37: Desarrollo de técnicas de clustering en datos de ...

21

tiempos de retención. Estas señales son debidas a la fase fija o móvil que llega a la interfaz ESI, por lo que se ioniza y se analiza su masa. A pesar de que estos artefactos químicos no son propiamente ruido, ya que mantienen una intensidad muy elevada en todo el tiempo del análisis, son compuestos que no nos interesa analizar, ya que únicamente nos dará problemas en nuestra búsqueda de compuestos de interés.

Este objetivo se logra con resultados muy satisfactorios, consiguiendo identificar y suprimir los artefactos químicos en un procesamiento de los datos muy rápido y previo a la identificación de los compuestos, de forma que el análisis posterior obtenga mejores resultados y sea más rápido, al eliminar una cantidad importante de datos de alta intensidad

Objetivos académicos.

En lo referente a los objetivos de interés académico y al uso de conceptos multidisciplinares para analizar y tratar de resolver un problema de un aplicación real, a continuación se pueden observar objetivos propuestos, campos investigados y conceptos utilizados a lo largo del trabajo.

Modelado de sistemas.

A lo largo del trabajo se han usado conceptos relativos al modelado de

sistemas, ya que se puede considerar el análisis LC-MS como un sistema

cuya salida (datos LC-MS) viene determinada por su entrada (compuesto) y

su respuesta impulsiva (separación cromatográfica, ionización, detección

de iones, cálculo de tiempos de vuelo, etc.).

Instrumentación.

El análisis del sistema HPLC-ESI-TOF/MS ha requerido un análisis de

los instrumentos que se utilizan en él, consolidando conceptos aprendidos

en la carrera (ruido electrónico, fluctuación de medidas por temperatura de

los elementos, etc.) y descubriendo nuevos elementos de interés

(electromultiplicador, eficacia de la ionización, etc.).

Aplicación de técnicas de procesado de señal básicas a datos reales.

En el trabajo se han usado muchos conceptos de tratamiento digital y

analógico de señales, lo que ha permitido desarrollar los métodos deseados

con una base sólida de procesado de señal. Por ejemplo, el método de

detección y caracterización de compuestos se ha basado en conceptos

básicos de procesado de señal (distancia entre perfiles cromatográficos

como una correlación entre señales).

Uso y adquisición de habilidades de programación. Este objetivo es tanto personal como necesario para una correcta

implementación de los métodos que se proponen en este trabajo. En primer lugar, hay que tener en cuenta que en los métodos implementados se trabajará con vectores con muchísimas entradas y matrices de dimensiones realmente altas, por lo que es necesario adquirir habilidad en la manipulación de vectores y matrices en el entorno Matlab que no requieran

Page 38: Desarrollo de técnicas de clustering en datos de ...

22

del uso de bucles, pues una implementación incorrecta de un método puede hacer que tarde varios minutos (si se hace con bucles), a que tarde unos pocos segundos (si se hace por indexación, por ejemplo).

Conocimientos de problemas en HPLC-ESI-TOF/MS.

A lo largo del trabajo se ha realizado un estudio de los datos obtenidos

mediante HPLC-ESI-TOF/MS, por lo que se han introducido conceptos

completamente nuevos que no se habían visto a lo largo de la carrera (por

ejemplo la cromatografía) y que han formado una base para poder

comprender y manipular este tipo de datos.

Metodología científica y elaboración de reportajes científicos.

En el desarrollo de los métodos de este trabajo se ha aprendido a tener

una actitud científica basada en investigar, desarrollar, evaluar y discutir los

resultados obtenidos, aprendiendo las pautas que es conveniente seguir

para implementar y comprobar un método.

También se ha realizado la memoria de este trabajo teniendo en cuenta

que es un trabajo científico, por lo que se han adquirido conceptos sobre el

tipo de estructura usada en este tipo de trabajos y cómo se distribuye la

información en éstos.

Integración de conocimientos multidisciplinares.

A lo largo del trabajo se han usado conceptos relativos a muchas

disciplinas, aprendidas o no a lo largo de la carrera, para desarrollar

métodos orientados a datos reales en una disciplina hasta ahora

desconocida para el alumno. Entre las muchas disciplinas que se han

integrado en este trabajo, se pueden destacar las siguientes: física (por

ejemplo el movimiento de iones por campos electrónicos), química (por

ejemplo la ionización de una molécula), instrumentación electrónica (por

ejemplo el análisis del detector por tiempo de vuelo, conversor A/D, etc.),

electrónica de control (osciladores utilizados y su variación en función de la

temperatura), teoría de la señal (filtrados, correlaciones, etc.), matemáticas

(proyección de vectores), estadística (valores esperados, histogramas,

etc.), programación (habilidades de programación en Matlab) y búsquedas

bibliográficas (búsqueda en webs de investigación e incluso búsquedas

para adecuar el lenguaje a la redacción de un texto científico).

Page 39: Desarrollo de técnicas de clustering en datos de ...

23

2.3. Metodología. En este apartado se muestra el problema que se intenta solucionar con la

herramienta implementada en este trabajo y cómo se ha abordado e implementado. Se muestra también cómo se comprueban los resultados que se obtienen con la herramienta implementada y las distintas formas de representar los datos. Además, se realiza un estudio de la respuesta instrumental que presenta el sistema HPLC-ESI-TOF/MS ante la entrada de uno o varios compuestos, con el objetivo de comprender las distribuciones de ruido y los problemas que nos podemos encontrar. También se explican las colecciones de muestras se han usado a lo largo de todo el trabajo y el preprocesamiento que se ha realizado en las muestras para reducir su volumen y obtener resultados con más rapidez.

El estudio de las características de los datos HPLC-MS se ha apoyado en

ejemplos correspondientes a muestras analizadas en el Departamento de Química Analítica de la Universidad de Granada, con el que mantiene una colaboración el Departamento de Teoría de la Señal, Telemática y Comunicaciones, en el que se ha realizado este trabajo. Se han usado dos muestras como ejemplos; la primera de ellas es una muestra simple obtenida disolviendo en metanol 5 compuestos fenólicos conocidos y disponibles comercialmente (usados como estándares para calibración), en cantidades conocidas. La segunda muestra es un extracto fenólico de un aceite de oliva virgen extra, y contiene un número muy elevado de compuestos en concentraciones, a priori, desconocidas, siendo por tanto una muestra mucho más compleja. 2.3.1. Identificación del problema y solución propuesta.

Como se ha comentado anteriormente, el problema que se va a intentar

superar con esta herramienta es la ausencia de métodos automáticos que detecten y caractericen los compuestos de una muestra cuando hay coelución entre ellos, ya que la orientación que siguen se basa en una agrupación según tiempo de retención y relación masa/carga, sin tener en cuenta nunca la forma del pico cromatográfico.

La solución que se ha implementado en la herramienta es utilizar algo no

utilizado hasta el momento; la agrupación de la huella espectrométrica de cada compuesto basándose en la forma cromatográfica del ion más abundante del compuesto. Esta idea consiste en buscar primero los posibles iones principales (entendiendo como principales los más abundantes) de cada compuesto, para luego saber cuáles de ellos pertenecen al mismo compuesto, y cuáles de ellos pertenecen a compuestos distintos. Esta comparación se realiza considerando un espacio vectorial de funciones que describen los picos cromatográficos. Para comparar dos picos cromatográficos se proyecta una función sobre la otra normalizadas. Una vez que se tienen únicamente los iones principales de cada compuesto, se agrupa la huella espectrométrica de cada uno de ellos realizando la misma comparación (proyección de vectores) con todos los picos cromatográficos que salen en tiempos de retención parecidos, pasando un pico cromatográfico a formar parte de la huella espectrométrica si es lo suficientemente parecido al pico cromatográfico principal.

Agrupando la huella espectrométrica según comparación entre picos

cromatográficos, los compuestos que coeluyan parcialmente (coeluyen pero los máximos de intensidad están en tiempos distintos) darán una similitud muy baja, ya que las proyecciones de sus vectores serán muy pequeñas por estar desplazados ambos picos cromatográficos. Si la coelución de ambos picos es total (coeluyen con el máximo de intensidad prácticamente en el mismo instante de tiempo), entonces se podrán separar si la forma cromatográfica es distinta (más adelante se dirá qué umbral

Page 40: Desarrollo de técnicas de clustering en datos de ...

24

se aplica para decir que una similitud es lo suficientemente grande). El objetivo de este trabajo ha sido implementar esta herramienta y evaluarla para poder comprobar que la agrupación de huella espectrométrica por similitud de pico cromatográfico es un proceso adecuado. 2.3.2. Validación y evaluación del método.

Una vez que se tengan los resultados de aplicar la herramienta a una muestra,

habrá que comprobarlos para verificar que son correctos. Para la comprobación se siguen dos procedimientos, uno basado en comparar los resultados con los que se obtienen con una búsqueda exhaustiva manual realizada por un experto en química analítica, y otro basado en comprobar los resultados de un compuesto con los que se obtienen de ese mismo compuesto en varias muestras de la misma colección.

Cuando queramos comprobar si los compuestos que ha detectado la

herramienta son los correctos, se usará la información que se dispone del análisis realizado manualmente. En esta comprobación tenemos que tener en cuenta que habrá algunos compuestos que un experto identifique rápidamente, pero que la herramienta no pueda identificar de momento (en una implementación básica de la misma), a la vez que habrá compuestos que la persona no logrará identificar pero la herramienta sí (quizás por coeluir con otro compuesto más abundante). El número de compuestos detectados depende del umbral de intensidad que se use, ya que un umbral bajo hará que el método automático detecte más compuestos pero a riesgo de proporcionar detección de que no corresponden a compuestos (falsos positivos) y que son debidos al ruido. De la misma forma, reducir falsos positivos supondrá también reducir el número de compuestos correctamente identificados, por lo que se tendrá que buscar una solución de compromiso que demuestre que el método presenta buenos resultados y que tiene potencial para conseguir resultados mucho mejores.

Figura 9. Diagrama de las posibilidades al comprobar los resultados.

En la figura 9 se ha intentado esquematizar el hecho de que con la herramienta automática (elipse negra) se cogerán más compuestos presentes en la muestra (rectángulo rojo) que de forma manual (círculo azul). Sin embargo, con la herramienta automática también se generarán falsos positivos debidos a ruido o artefactos (fondo amarillo), lo que no ocurrirá con la forma manual. Si se reduce el tamaño de la elipse negra (se usan umbrales más restrictivos) se tendrán menos falsos positivos pero también se encontrarán menos compuestos de la muestra y reduciendo el número de compuestos que se encuentran por ambos métodos (intersección entre círculo y elipse). Por otra parte, aumentar el tamaño de la elipse (condiciones más relajadas) hará que se detecten más compuestos de la muestra, y prácticamente todos los que

Page 41: Desarrollo de técnicas de clustering en datos de ...

25

se han encontrado manualmente, pero también añadirá falsos positivos. Los resultados se considerarán buenos si se detectan muchos compuestos, con un número reducido de falsos positivos y la mayoría de los compuestos encontrados manualmente, se encuentran también con la herramienta (y justificando los que no se encuentran para entender qué mejoras haría falta implementar para que sí se encontrasen).

Cuando el interés radique en comprobar si la huella espectrométrica de un

compuesto se ha agrupado de forma correcta, lo que se va a hacer es comprobar que la huella espectrométrica sea la misma para el compuesto en muestras distintas, lo que dará validez a la comprobación ya que superará los desalineamientos temporales y descalibraciones de masa que hay entre distintas muestras.

2.3.3. Formas de mostrar los datos.

En este apartado se explicarán las distintas formas que tenemos de

representar los datos, viendo las ventajas de cada una y sus limitaciones. Recordemos que tenemos 3 dimensiones; el tiempo de retención (o tiempo en el que se separan los compuestos de la muestra gracias a la cromatografía), la relación masa/carga (m/z) y la intensidad iónica de cada relación masa/carga en cada tiempo de retención.

2.3.3.1. Cromatogramas. Generalmente la información se suele representar en cromatogramas, que

consisten en una representación de la intensidad en función del tiempo de retención. La forma en la que se agrupan las masas es la que hace variar entre un tipo de cromatograma u otro.

Cromatograma de ion total (total ion chromatogram).

Este cromatograma representa la intensidad iónica en función del tiempo de retención sumando todas las intensidades que hay en cada tiempo de retención (es decir las intensidades que tenemos para todas las m/z en ese tiempo de retención). Un ejemplo de este tipo de cromatograma en una muestra simple (mezcla de estándares comerciales) se puede observar en la figura 10.

Figura 10. Ejemplo de cromatograma de ion total con una muestra simple.

300 400 500 600 700 800 9000

0.5

1

1.5

2

2.5

3

3.5x 10

5

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion total

Page 42: Desarrollo de técnicas de clustering en datos de ...

26

En el cromatograma se pueden observar varios picos, conocidos como picos cromatográficos, correspondientes a todas las intensidades que han salido en esos tiempos de retención. Cada pico del cromatograma se corresponde con un compuesto (o con varios si hay coelución), aunque ya veremos que un compuesto viene determinado por mucha más información que un pico cromatográfico. Realmente la muestra representada es muy sencilla y sin coelución, por lo que aquí se pueden distinguir fácilmente los compuestos más abundantes que hay, aunque el fondo de ruido provoca que la intensidad sea muy alta cuando no hay compuestos saliendo de la columna cromatográfica. Si se realiza esta representación para la muestra compleja (extracto fenólico de aceite) se observa un cromatograma mucho más complejo (con más picos y con picos superpuestos que indican coelución), como puede observarse en la figura 11.

Figura 11. Ejemplo de cromatograma de ion total con una muestra de aceite.

Es inmediato observar que esta muestra es mucho más compleja que la anterior, ya que se observan picos muy juntos entre sí y, en este caso, hay coelución de los compuestos, por ejemplo entre los 750 y los 950 segundos. Además, se puede ver que el fondo de ruido se hace cada vez más grande, lo que tiene su explicación cuando se observan los datos desde otra perspectiva, pero que no se puede explicar con esta representación. Otra cosa importante de este tipo de representación, es que si hay varios compuestos coeluyendo en el mismo tiempo de retención, la intensidad de ion total será muy superior a la del máximo de cada compuesto, pero su suma hará que parezca que es un único compuesto con una abundancia muy grande. Este último caso se puede observar en los primeros segundos del cromatograma de ion total, donde tenemos un pico correspondiente a la inyección de un calibrante (formiato sódico) con una huella espectrométrica muy extensa. Realmente este calibrante provoca muchos clusters (se explicará más adelante su significado) que formarán una huella espectrométrica muy extensa en masa, por lo que el pico que se observa es la suma de todos los clusters de dicha huella. En conclusión, este cromatograma tiene varios problemas; en primer lugar no sirve para observar los compuestos que coeluyen y, en segundo lugar, el hecho de

0 200 400 600 800 1000 1200 1400 16000

0.5

1

1.5

2

2.5x 10

6

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion total

Page 43: Desarrollo de técnicas de clustering en datos de ...

27

sumar las intensidades de todas las relaciones masa/carga para cada tiempo de retención, hace que el ruido contribuya mucho a dicha suma y algunos picos queden parcialmente enmascarados. Como se ha podido observar en la muestra compleja, este cromatograma puede dar a entender que hay compuestos muy abundantes, cuando realmente pueden ser muchos compuestos relativamente poco abundantes que están coeluyendo. Sin embargo, su facilidad tanto de comprensión como de implementación, hace que resulte una opción sencilla para hacerse una idea general de los compuestos que hay en una muestra simple.

Cromatograma de pico base (base peak chromatogram).

Este cromatograma representa, para cada tiempo de retención, la intensidad máxima en ese tiempo de retención para todas las masas. Es decir, representa la intensidad del ion más abundante en ese tiempo de retención.

Figura 12. Ejemplo de cromatograma de pico base de la muestra simple.

En la figura 12 se presenta el cromatograma de pico base de la muestra simple. Como se puede notar en dicha figura, el cromatograma de pico base es realmente parecido al cromatograma de ion total, con la diferencia de que el fondo de ruido no se suma a los valores de intensidades dados, de forma que se observa de forma más objetiva la abundancia iónica del compuesto en la muestra. Sin embargo, existe también el problema de no poder observar compuestos que coeluyen, ni tampoco se pueden observar compuestos que están por debajo del umbral de intensidad que marcan los artefactos químicos asociados a fase fija o fase móvil (se analizarán más adelante). En la figura 13 se presenta el cromatograma de pico base de la muestra compleja. Como se puede observar en dicha figura, la diferencia entre esta representación y la de ion total es mayor para una muestra compleja, ya que se puede observar realmente la abundancia iónica de cada compuesto que sobresalga por encima del resto (por ejemplo, el pico de los primeros segundos se ha reducido al valor de la intensidad de su especie iónica más abundante). Sin embargo, esta representación mantiene los mismos problemas básicos para distinguir compuestos que el cromatograma de ion total, ya que no consigue distinguir los compuestos que coeluyen y enmascara aquellos compuestos que tienen una intensidad por debajo del umbral de intensidad marcado por los compuestos que aparecen de forma continua.

300 400 500 600 700 800 9000

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2x 10

5

Tiempo (s)

Inte

nsid

ad

Cromatograma de pico base

Page 44: Desarrollo de técnicas de clustering en datos de ...

28

Figura 13. Ejemplo de cromatograma de pico base de la muestra compleja.

Por lo tanto, de estas representaciones se puede concluir que presentan limitaciones importantes a la hora de caracterizar los compuestos de la muestra, pero son muy útiles para hacerse una idea general de la distribución de los compuestos en la muestra.

Cromatograma de ion extraído (extracted ion chromatogram).

Este cromatograma se basa en representar la intensidad en función del tiempo para un rango determinado (generalmente pequeño) de masas, de forma que las intensidades de las masas que estén en el mismo tiempo de retención se suman. Realmente es una extensión del cromatograma de ion total, pero en vez de representar (y sumar) todo el rango de masas, únicamente nos quedamos con una pequeña porción de él. El nombre de “ion extraído” viene por la idea de que, si sabemos que hay un compuesto que sale en una masa concreta (por ejemplo en la masa 463,091 Da, que es el ion más abundante de la muestra simple), podemos coger un pequeño rango de masas alrededor de esa masa para observar, en todo el tiempo de retención, cómo sale ese ion o sus isómeros (aquellos que tienen igual relación masa/carga). Por ejemplo, si usamos la muestra simple y representamos la relación masa/carga 463,091 Da con un intervalo de masas de 25 mDa alrededor de la masa central, obtenemos el cromatograma de ion extraído que se observa en la figura 14.

0 200 400 600 800 1000 1200 1400 16000

1

2

3

4

5

6

7x 10

5

Tiempo (s)

Inte

nsid

ad

Cromatograma de pico base

Page 45: Desarrollo de técnicas de clustering en datos de ...

29

Figura 14. Ejemplo de cromatograma de ion extraído.

Con esta representación somos capaces de observar con claridad los dos picos cromatográficos que hay en esta muestra con esa relación masa/carga, observando también uno que quedaba enmascarado y no se podía ver en las anteriores representaciones. En la figura 15 se puede observar el cromatograma de ion extraído centrado en la masa del ion más abundante de la muestra compleja.

Figura 15. Ejemplo de cromatograma de ion extraído.

En la figura 15 se observa de forma evidente la gran utilidad de este tipo de cromatograma, ya que nos permite distinguir perfectamente todos los isómeros que aparecen en un rango de masas pequeño, evitando así que queden enmascarados por otros iones más abundantes pero que estén en otras masas más lejanas. Se puede concluir que el cromatograma de ion extraído es una representación muy útil para observar en detalle una relación masa/carga concreta (en un rango pequeño de masas), y será muy utilizada a lo largo del trabajo tanto para comprobar resultados, como para obtener información sobre la forma de los picos de los

300 400 500 600 700 800 9000

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2x 10

5

Tiempo (s)

inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (463.091 +- 0.0125) Da

0 200 400 600 800 1000 1200 1400 16000

1

2

3

4

5

6

7x 10

5

Tiempo (s)

inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (377.129 +- 0.0125) Da

Page 46: Desarrollo de técnicas de clustering en datos de ...

30

compuestos y de los artefactos.

2.3.3.2. Espectrogramas.

Una vez que hemos analizado las formas de representar una muestra con cromatogramas, vemos que hace falta una forma de representar los datos que aporte información mucho más general de la muestra, y que nos permita distinguir los compuestos no solo por el tiempo de retención, sino también por la relación masa/carga que tienen sus iones.

La forma más adecuada de representar las tres dimensiones en este tipo de

datos es representando el tiempo de retención y la relación masa/carga en dos ejes perpendiculares, y representar, para cada pareja tiempo-masa/carga, la intensidad en una escala de color. Sin embargo, el rango de intensidades iónicas de los datos es muy grande, por lo el mapa de colores tiene que abarcar un rango muy grande de valores, siendo más difícil observar los cambios suaves entre intensidades. Una solución a este problema es representar la intensidad en escala logarítmica, reduciendo así el reducir el rango de intensidades que se muestra con el mapa de colores.

Algo que hay que tener en cuenta también es que los tiempos de retención no

dan saltos exactos de un segundo, sino que suelen tener una variación ligeramente mayor a un segundo. Si calculamos la diferencia que hay en los tiempos en los que se producen los scans (es decir, cada vez que el espectrómetro obtiene un espectro suma), veremos que ni es exactamente un segundo, ni es igual para todo el proceso. Por ejemplo, en la figura 16 se representa el histograma de la diferencia en los tiempos de retención de la muestra compleja. En dicho histograma se puede observar que la gran mayoría de los tiempos de retención tienen una diferencia de entre 1,003 y 1,004 segundos, por lo que llegará un momento en el que, si redondeamos cada tiempo de retención a su entero más cercano, habría algunos tiempos de retención que no tendrían asociado ningún scan. Por ejemplo, si tenemos un tiempo de retención en 4,499 segundos, y el siguiente en 5,502 segundos (4,499 + 1,003), al redondear tendremos un tiempo de retención en 4 segundos, y el siguiente en 6 segundos, quedando entre medias un segundo sin ninguna información.

Figura 16. Histograma de los saltos en el tiempo de retención.

Ante esta situación tenemos varias opciones si queremos representar un espectrograma; la primera es no representar tiempo de retención y representar en cambio scans. Esta opción asegura que no habrá scans vacíos pero hará que no podamos observar claramente los segundos en los que eluyen los compuestos (tendremos que ver qué segundo corresponde a ese scan). Otra opción es asumir que habrá segundos huecos y redondear cada tiempo de retención a su entero más

1.002 1.003 1.004 1.005 1.006 1.007 1.008 1.009 1.01 1.0110

200

400

600

800

1000

1200Histograma de los saltos en el tiempo de retención

Page 47: Desarrollo de técnicas de clustering en datos de ...

31

cercano. Esta opción es adecuada para ver exactamente los tiempos de elución de cada compuesto, pero generará incómodos tiempos de retención vacíos que hacen que se pueda pensar que hay un error. Por último, podemos compensar la diferencias en el eje de tiempo dividiendo cada valor de retención por la media de las diferencias de tiempos (en este caso sería aproximadamente 1,003) y estaríamos realmente mostrando los índices del scan. Esta solución es bastante buena ya que permite representar las muestras sin que haya tiempos de retención vacíos, aunque el hecho de compensar el tiempo de retención hace que poco a poco haya valores de tiempo en el espectrograma que varíen con los valores reales en los que aparece ese compuesto. En la figura 17 se observan las dos soluciones para representar el espectrograma, representándose la misma zona de la muestra compleja con un espectrograma con ambos casos; compensando el tiempo con las diferencias entre los tiempos de retención (imagen izquierda), y sin compensar el tiempo pero observando un vacío entre dos tiempos de retención (imagen derecha). Además, se ha marcado un punto en el espectrograma que corresponde exactamente a la misma entrada de la muestra, pero que debida a la compensación aparece 3 segundos antes (aunque ya hemos dicho que no son exactamente segundos, sino tiempo compensado o índices de scan) de lo que debería, cosa que sí hace de forma correcta en la representación de la derecha.

Figura 17. Ejemplos de espectrogramas.

Realmente esta situación no es problemática en este trabajo, ya que se usará para hacernos una idea de la distribución de los compuestos en la muestra y, dado que ambas formas de representar el espectrograma nos aportan esa información, en este trabajo no se especificará qué tipo de espectrograma se representa en cada ocasión.

Una vez que se ha analizado esta cuestión sobre el eje de tiempos del espectrograma, volvamos a cómo hacer el espectrograma en sí. Lo interesante sería poner exactamente la información que tenemos para cada una de las masas distintas que tenemos, pero realmente no podríamos representar la precisión de un espectrómetro de masas (del orden de mDa) en una imagen, ya que el rango de masas es demasiado grande para cubrir todas las masas discretas (del orden de 1000 Da). Por lo tanto, la solución que se sigue es agrupar las masas en intervalos grandes o pequeños, según se quiera abarcar un rango de masas mayor o menor. Los dos tipos de espectrogramas que usaremos varían en la precisión que dan a las masas (es decir, cómo las agrupan) y el rango total de masas que muestran.

En ambos tipos de espectrogramas se tiene una resolución de tiempo de

retención de prácticamente un segundo, mientras que la resolución en masa varía

X: 1254 Y: 756

Index: 4.809

RGB: 1, 0.313, 0

Tiempo(s)

Masa ion (

Da)

Espectrograma de baja resolucion (1 Da)

1230 1240 1250 1260 1270 1280

300

350

400

450

500

550

600

650

700

750

1

1.5

2

2.5

3

3.5

4

4.5

5

5.5

X: 1251 Y: 756

Index: 4.809

RGB: 1, 0.313, 0

Tiempo compensado

Masa ion (

Da)

Espectrograma de baja resolución (1 Da)

1230 1240 1250 1260 1270 1280

300

350

400

450

500

550

600

650

700

750

1

1.5

2

2.5

3

3.5

4

4.5

5

5.5

Page 48: Desarrollo de técnicas de clustering en datos de ...

32

entre una resolución baja (espectrograma de baja resolución) y una resolución alta (espectrograma de alta resolución).

Espectrograma de baja resolución.

Este espectrograma muestra todo el rango de relaciones masa/carga, y está pensado para hacernos una idea general de los compuestos sin preocuparnos por saber las variaciones pequeñas de masa. Al abarcar un rango de masas tan grande, es necesario agrupar las masas en grupos también grandes, usándose habitualmente grupos de masas de 1 Da.

En la figura 18 se representa el espectrograma de baja resolución (1 Da) para

la muestra simple. Como se puede observar en dicha figura, el espectrograma nos da una idea más general de toda la muestra que la que nos aportaban los cromatogramas. Para empezar, podemos observar los compuestos más abundantes de la muestra, observando fácilmente 5 de ellos (los que están en aproximadamente los tiempos de retención 390, 500, 640, 750 y 800 segundos), y si se observa la figura con más detenimiento, veremos que hay otro compuesto alrededor de los 411 segundos y otro alrededor de los 600 segundos. Estos compuestos coinciden con los que observamos en el cromatograma, pero aquí hemos podido observar en qué masas se distribuyen y podemos distinguir perfectamente el que está en el tiempo de retención 411 segundos, mientras que antes no conseguiríamos diferenciarlo fácilmente.

Figura 18. Ejemplo de espectrograma de baja resolución (1 Da).

Este espectrograma nos permitirá también, si hacemos zoom sobre el ion más abundante de un compuesto, ver cómo se distribuye su intensidad en función del tiempo de retención. Por ejemplo, en la figura 19 se puede ver el ion más abundante de toda la muestra, que es del compuesto que sale aproximadamente a los 800 segundos de tiempo de retención.

Tiempo(s)

Masa ion (

Da)

Espectrograma de baja resolucion (1 Da)

100 200 300 400 500 600 700 800

100

200

300

400

500

600

700

800

900

1000

1

1.5

2

2.5

3

3.5

4

4.5

5

Page 49: Desarrollo de técnicas de clustering en datos de ...

33

Figura 19. Ejemplo de zoom en un espectrograma de baja resolución (1 Da).

Esta representación es muy útil para observar la distribución de los compuestos en todo el rango de tiempos de retención y de relaciones masa/carga. Sin embargo, si el objetivo es observar la distribución de las masas de forma más precisa, interesará tener un rango de masas mucho menor pero que permita una mayor precisión. Esta representación se consigue con el espectrograma de alta resolución.

Espectrograma de alta resolución.

En este tipo de espectrograma cogeremos un rango de masas mucho más pequeño (de varios Daltons) y agruparemos las masas en grupos de anchura también muy pequeña (de varios miliDaltons). Para hacer más cómoda la representación, aquí se ha optado por representar las masas con grupos de 10 mDa.

La figura 20 muestra un espectrograma de alta resolución (resolución de 10

mDa) para un rango de masas de 5 Da alrededor de la masa/carga 463 Da de la muestra simple. En la figura se observa el aumento de la resolución, lo que permite diferenciar masas separadas poco entre sí.

Figura 20. Ejemplo de espectrograma de alta resolución (10 mDa).

Si hacemos zoom en los rangos de tiempo de retención que nos interesan (en

Tiempo(s)

Masa ion (

Da)

Espectrograma de baja resolucion (1 Da)

785 790 795 800 805 810 815 820460

462

464

466

468

470

1

1.5

2

2.5

3

3.5

4

4.5

5

Tiempo(s)

Masa ion (

Da)

Espectrograma de alta resolucion (10 mDa) centrado en 4.630906e+02 +- 2.50 Da

100 200 300 400 500 600 700 800

461

461.5

462

462.5

463

463.5

464

464.5

465

465.5

1

1.5

2

2.5

3

3.5

4

4.5

5

Page 50: Desarrollo de técnicas de clustering en datos de ...

34

los que sale el ion principal), veremos la gran diferencia que tenemos en este espectrograma con respecto al de baja resolución. Esto se puede observar en la figura 21, donde es inmediato observar que, mientras que antes no sabríamos decir dónde estaba cada masa dentro del rango de 1 Da que teníamos de resolución, ahora sí podemos distinguir cómo se distribuyen las masas alrededor de la masa central de cada ion. Esta información nos será muy útil en la caracterización de los compuestos que haremos más adelante, por lo que este espectrograma nos será también de gran utilidad.

Figura 21. Ejemplo de zoom en un espectrograma de alta resolución (10 mDa).

2.3.4. Colecciones de muestras utilizadas.

En este trabajo se han utilizado dos conjuntos de muestras analizadas por el

Departamento de Química Analítica de la Universidad de Granada.

El primer conjunto es una colección de 30 muestras simples obtenidas

disolviendo en metanol 5 compuestos fenólicos conocidos y disponibles

comercialmente, en cantidades distintas pero conocidas para cada una de las

muestras. El segundo conjunto es una colección de 22 muestras de extractos fenólicos

de aceites de oliva virgen extra, que contienen un número muy elevado de

compuestos en concentraciones, a priori, desconocidas, siendo esta colección de

muestras mucho más compleja que la anterior.

Como anotación se dirá que se usan estos datos pues el estudio de los

polifenoles es muy interesante ya que hay estudios que demuestran que los

polifenoles presentan características muy beneficiosas para la prevención y/o

tratamiento de algunas enfermedades. Entre esas características se encuentran la

actividad antioxidante, antiinflamatoria y anticancerígena (aparte de muchas otras) [15-

17].

Tiempo(s)

Masa ion (

Da)

Espectrograma de alta resolucion (10 mDa) centrado en 4.630906e+02 +- 2.50 Da

760 770 780 790 800 810 820 830 840

463

463.5

464

464.5

465

1

1.5

2

2.5

3

3.5

4

4.5

5

Page 51: Desarrollo de técnicas de clustering en datos de ...

35

2.3.4.1. Colección de muestras de estándares comerciales de polifenoles.

Este conjunto se ha elaborado de forma artificial en el laboratorio y consiste en

30 muestras en las que se diluyen, en metanol (en total habrá 2 mL de metanol por

muestra), 5 estándares distintos de polifenoles. Cada muestra contiene algunos

(excepto la primera que no tiene ninguno) de los estándares en diferentes

concentraciones, de forma que conocemos a priori los compuestos que deberíamos

identificar en cada muestra [7].

Las muestras preparadas en el laboratorio se analizaron mediante

cromatografía líquida acoplada a espectrometría de masas por tiempo de vuelo (LC-

MS/TOF) y los parámetros más importantes del proceso se pueden ver a continuación:

- La cromatografía líquida se ejecutó con un equipo RRLC Agilent 1200 y una

columna Zorbax Eclipse con un diámetro de 4,6 mm, una longitud de 15 cm

y un tamaño de partícula de 1,8 µm. La fase móvil fue inicialmente agua y

acetonitrilo (en una proporción 90:10) y finalmente solo acetonitrilo.

- La interfaz utilizada fue la ionización por electrospray, que ya estaba

equipado en el espectrómetro de masas utilizado. El modo de ionización fue

negativo (se quita un protón), con un capilar de ionización a 4.500 V, una

temperatura de 190ºC, a una presión del gas de 1,5 bar y un flujo de gas de

secado de 7 L/min.

- El espectrómetro de masas usado era el microTOFTM de la empresa Bruker

Daltonik GmbH, que se hizo operar a 1 espectro de línea por segundo. La

calibración inicial de masa se realizó inyectando clusters de formiato de

sodio.

Los estándares de polifenoles usados se pueden ver en la tabla 1.

Identificador Compuesto Fórmula

molecular Masa teórica (Da)

c1 Delfinidina-3-O-

sambubiósido C26H28O16 596,1384

c2 Ácido clorogénico C16H18O9 354,0957

c3 Ácido caféico C9H8O4 180,0429

c4 Quercetina-3-O-

rutinósido C27H30O16 610,1540

c5 Quercetina-3-O-

glucósido C21H20O12 464,0961

Tabla 1. Estándares de polifenoles mezclados en las muestras la colección.

De la tabla 1 cabe destacar que los valores de masa (Da) se refieren a la

molécula del compuesto, sin ionizar. Por lo tanto, dado que la ionización que se aplica

para obtener estos datos es negativa, se perderá un protón de la molécula para

Page 52: Desarrollo de técnicas de clustering en datos de ...

36

ionizarla, lo que conllevará una pérdida de masa igual a la masa del protón

(aproximadamente 1 Da). Por lo tanto, los resultados de masa que obtendremos para

los compuestos que aparecen en la tabla superior, tendrán 1 Dalton menos

(aproximadamente). La concentración de cada compuesto en cada muestra se puede

observar en la tabla 2.

Muestra

Concentración (µg/mL)

c1 c2 c3 c4 c5

1 0 0 0 0 0

2 0 0 1.0 0 0

3 2.0 0 1.0 0 0

4 0 2.0 0 2.0 2.0

5 2.4 1.6 0.4 2.0 0.8

6 4.0 1.6 0.8 1.2 0.4

7 0 0 0 1.0 1.0

8 1.6 1.0 0.6 1.2 1.4

9 2.4 1.0 1.4 0.8 0.6

10 4.0 0 2.0 1.0 1.0

11 2.0 2.0 1.0 0 2.0

12 2.0 2.0 0.8 1.6 1.0

13 0 2.0 0 2.0 2.0

14 4.0 2.0 2.0 2.0 0.4

15 4.0 2.0 2.0 2.0 2.0

16 4.0 2.0 3.0 0 2.0

17 6.0 2.8 2.0 0 3.2

18 6.0 2.0 4.0 1.0 0

19 4.0 3.0 0 4.0 4.0

20 0 3.0 0 4.0 2.0

21 0 0 0 0.4 4.0

22 0 4.0 0 4.0 0.4

23 6.0 3.0 3.0 3.0 3.0

24 6.0 0 3.0 0 0

Page 53: Desarrollo de técnicas de clustering en datos de ...

37

25 4.8 2.0 3.6 3.0 3.0

26 4.8 2.8 2.0 3.2 3.6

27 4.0 0 2.0 4.0 4.0

28 8.0 2.0 4.0 0 0

29 8.0 3.0 4.0 3.0 2.0

30 8.0 4.0 4.0 2.0 2.0

Tabla 2. Concentración de los compuestos en cada muestra.

Para hacernos una idea de cómo es el conjunto de datos, vamos a mostrar el

espectrograma de baja intensidad para varias de ellas.

En la figura 22 se puede ver el espectrograma de la muestra 1, que no contiene

ninguno de los compuestos (ha sido usada como control). Como se puede observar en

dicha figura, no vemos huellas espectrométricas en el espectro pero sí vemos

artefactos químicos durante todo el tiempo de retención. Por lo tanto, ya sabemos lo

que nos encontraremos en las demás muestras aparte de los compuestos que

diluyamos en el metanol.

Figura 22. Espectrograma de baja resolución de la muestra nº 1.

En la figura 23 se puede ver la muestra 4, que tiene los compuestos c2, c4 y c5

en la misma concentración. En esta ocasión observamos perfectamente los 3

compuestos que contiene la muestra, e incluso se puede observar un cuarto

compuesto con 600 segundos de tiempo retención, que puede ser cualquier impureza

debida a uno de los compuestos o un isómero de éstos (misma fórmula molecular pero

distinta estructura y, por tanto, distinto tiempo de retención).

Tiempo(s)

Masa ion (

Da)

Espectrograma de baja resolucion (1 Da)

400 500 600 700 800

100

200

300

400

500

600

700

800

900

1000

1

1.5

2

2.5

3

3.5

Page 54: Desarrollo de técnicas de clustering en datos de ...

38

Figura 23. Espectrograma de baja resolución de la muestra nº 4.

Por último, en la figura 24 se observa una muestra que tiene los 5 compuestos

presentes, la muestra 15. En este espectrograma observamos también claramente los

5 compuestos y sus huellas espectrométricas. Además, podemos observar el mismo

compuesto que veíamos en la muestra 3 (el del tiempo de retención de 600 segundos)

y uno bastante más abundante y que tampoco esperábamos, el compuesto que sale a

los, aproximadamente, 411 segundos de tiempo de retención.

Figura 24. Espectrograma de baja resolución de la muestra nº 15.

Tiempo(s)

Masa ion (

Da)

Espectrograma de baja resolucion (1 Da)

400 500 600 700 800

100

200

300

400

500

600

700

800

900

1000

1

1.5

2

2.5

3

3.5

4

4.5

5

Tiempo(s)

Masa ion (

Da)

Espectrograma de baja resolucion (1 Da)

400 500 600 700 800

100

200

300

400

500

600

700

800

900

1000

1

1.5

2

2.5

3

3.5

4

4.5

5

Page 55: Desarrollo de técnicas de clustering en datos de ...

39

Una vez descrito el conjunto de muestras y observado algunas de ellas,

podemos concluir en que este conjunto de muestras es muy sencillo ya que no hay

coelución entre los compuestos que aparecen, pero nos será muy útil para ir

comprobando que los resultados del método implementado son correctos, y también

nos aportará información muy útil sobre las características de los artefactos químicos.

2.3.4.2. Conjunto de muestras de extractos fenólicos de aceites de oliva virgen extra.

El segundo conjunto que usaremos para este trabajo consistirá en 22 muestras

de extractos fenólicos de aceite de oliva virgen extra, de 5 variedades distintas;

Hojiblanca, Picual, Cornezuelo, Manzanilla y Arbequina. El proceso LC-MS utilizado

fue el mismo que para la muestra anterior (HPLC-ESI-MS/TOF) con las siguientes

especificaciones:

- La cromatografía líquida se ha realizado con un equipo Agilent 1200-RRLC

con una columna Zorbax Eclipse Plus de 4,6 mm de diámetro, 15 cm de

largo y un tamaño de partícula de 1,8 µm. En este caso se usó una fase

móvil inicial de agua ácida con acético (0,25%) y una final de metanol.

- La interfaz ESI operó en modo negativo con una presión del gas

nebulizador de 2 bar con un flujo de 9 L/min. La temperatura del gas de

secado era de 190ºC y se aplicó un potencial de 4.500 V entre la cámara de

nebulización y el capilar.

- El analizador TOF utilizó clusters de formiato sódico para realizar la

calibración inicial de masa antes de analizar cada muestra.

De las 22 muestras, 14 son muestras de extractos fenólicos de aceites de oliva

de alta calidad con un elevado contenido polifenólico, de una sola variedad y de

homogeneidad garantizada, obtenidas en distintas zonas geográficas de la península

ibérica (muestras numeradas de la 1 a la 14). Las otras 8 muestras (numeradas de la

15 a la 22) son extractos fenólicos de aceites de oliva comerciales de las variedades

Picual, Hojiblanca y Arbequina. En la tabla 3 se observan las variedades de cada una

de las muestras [7].

Muestra Variedad

1 Hojiblanca

2 Picual

3 Cornezuelo

4 Picual

5 Picual

6 Picual

7 Picual

Page 56: Desarrollo de técnicas de clustering en datos de ...

40

8 Manzanilla

9 Hojiblanca

10 Picual

11 Picual

12 Arbequina

13 Arbequina

14 Arbequina

15 Picual

16 Picual

17 Arbequina

18 Arbequina

19 Hojiblanca

20 Hojiblanca

21 Hojiblanca

22 Picual

Tabla 3. Variedades de las muestras de aceite de oliva.

En la figura 25 se puede ver el espectrograma de baja resolución (1 Da) de la

muestra 1 de aceite.

Figura 25. Espectrograma de baja resolución de la muestra nº 1.

Tiempo(s)

Masa ion (

Da)

Espectrograma de baja resolucion (1 Da)

200 400 600 800 1000 1200 1400

100

200

300

400

500

600

700

800

900

1000

1

1.5

2

2.5

3

3.5

4

4.5

5

5.5

Page 57: Desarrollo de técnicas de clustering en datos de ...

41

Cabe destacar que, como comentaremos en la sección “Preprocesado de los

datos”, todas las imágenes mostradas hasta el momento (ésta incluida) han sido

preprocesadas (quitado ruido y acotado rango de tiempos) para que se vean más

“limpias”.

En cuanto al espectrograma de la muestra, podemos observar que esta

muestra es mucho más compleja que las que hay en el conjunto de matrices de

estándares, ya que tiene muchos más compuestos que salen muy próximos los unos

de los otros. Por lo tanto, para hacernos una idea más general de esta muestra,

podemos observar el cromatograma de ion total en la figura 26. Al principio del tiempo

de retención apenas salen compuestos (aparte de la calibración inicial de masa),

mientras que pasados los, aproximadamente, 700 segundos, empiezan a salir muchos

compuestos y algunos coeluyen con los otros.

Figura 26. Cromatograma de ion total de la muestra 1 de la colección de aceites.

2.3.5. Estudio de la respuesta instrumental a los compuestos.

Anteriormente se dijo que los compuestos salen de la columna cromatográfica formando una distribución aproximadamente gaussiana, ya que el propio compuesto se dispersa en el transcurso del proceso cromatográfico. Sin embargo, sería un error pensar que un compuesto se caracteriza únicamente por un pico cromatográfico en la masa del ion de dicho compuesto, ya que la estructura de la molécula del compuesto y la forma de ionizarlo, hace que un compuesto se vea representado por multitud de picos cromatográficos correspondientes a los iones asociados al compuesto (o especies iónicas del compuesto), pero siempre en el mismo rango de tiempos de retención. Las variantes isotópicas, fragmentos y clusters del ion principal (ion de la molécula que forma el compuesto), forman un conjunto de picos cromatográficos provenientes del mismo compuesto (de la misma molécula) conocido como huella espectrométrica del compuesto, y cada uno de dichos picos cromatográficos a distintas masas, se puede denominar como línea de la huella espectrométrica o especie iónica del compuesto.

2.3.5.1. Huella espectrométrica de un compuesto.

A continuación se van a explicar los distintos procesos que forman la huella espectrométrica de un compuesto.

0 200 400 600 800 1000 1200 1400 16000

0.5

1

1.5

2

2.5x 10

6

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion total

Page 58: Desarrollo de técnicas de clustering en datos de ...

42

Patrón de fragmentación.

En primer lugar pensemos en una molécula, que estará formada por átomos

con una serie de enlaces entre ellos. Por ejemplo, la estructura que observamos en la

figura 27 es de un compuesto polifenólico presente en el aceite de oliva (y por tanto en

muestras que analizaremos en este trabajo), la oleuropeína aglicona.

Figura 27. Estructura molecular de la oleuropeína aglicona.

Cuando ionizamos los compuestos que salen de la columna separativa (en el

caso de los datos de este trabajo ha sido ionización por electrospray), estamos

aplicando un potencial eléctrico suficiente, para que la ionización sea eficiente, al

compuesto y a las moléculas que lo componen, lo que hace que no sólo se ionice, sino

que también se puedan romper enlaces de los iones que den lugar a otros iones

resultantes de la fragmentación de la molécula. Este proceso se conoce como

fragmentación y los iones obtenidos por rotura de enlaces de un ion se conocen como

fragmentos, siendo siempre de masa menor el ion original (sin fragmentar).

Por lo tanto, cuanto mayor sea el potencial eléctrico que usemos para ionizar

un compuesto, mayor será el número de fragmentos que nos encontraremos en el

espectrograma.

Sin embargo, el proceso de ionización usado (ESI) está dentro de los que se

conocen como “blandos”, pues no provoca demasiadas fragmentaciones, en el

espectrograma de la muestra podemos observar varios iones que podrían ser

fragmentos del ion principal. Para mostrar de forma experimental este suceso, se va a

representar la intensidad en función de la relación masa/carga para un periodo de

tiempo estrecho, con lo que veremos qué intensidades hay en cada masa y nos

servirán para identificar posibles fragmentos. Si se usa una muestra compleja de

aceite, podemos representar la intensidad que hay para cada masa en un intervalo de

tiempos pequeño alrededor del ion más abundante de la muestra, como se observa en

la figura 28. Considerando que el ion más abundante tiene una masa de 377,1 Da

(redondeando a la primera cifra decimal), entonces podemos considerar que alguna de

las agrupaciones iónicas (picos debidos a los iones de una misma especie iónica) que

tienen menor masa sean fragmentos de este ion más abundante, aunque a priori no

habría forma de saberlo porque también pueden ser artefactos químicos asociados a

las fases fija o móvil de la columna separativa, u otros iones que coeluyen con el más

abundante. Sin embargo, este ejemplo permite observar la idea de que un ion tendrá

siempre un conjunto de iones de masas menores asociados a dicho ion por ser

fragmentos de su molécula.

Page 59: Desarrollo de técnicas de clustering en datos de ...

43

Figura 28. Intensidad en función de la masa para un rango de tiempos concretos.

Algo interesante a tener en cuenta es que, si la molécula se rompe fácilmente

con la ionización y se aplican condiciones duras de ionización, es posible que el ion

más abundante de un compuesto sea un fragmento del ion principal, y que el ion

principal sea mucho menos abundante que sus fragmentos.

De los fragmentos nos interesará que, si analizamos un compuesto varias

veces bajo las mismas condiciones de análisis, posiblemente el compuesto salga en

instantes distintos de tiempos de retención (desalineamiento de tiempo de retención) o

se calcule un valor de masa ligeramente distinto (desalineamiento de relación

masa/carga), pero lo que se mantendrá aproximadamente será la forma en la que un

ion se fragmenta. A la forma de fragmentarse de un compuesto, es decir qué masa

tienen sus los fragmentos y qué abundancia relativa tienen en comparación con el ion

principal, es lo que se conoce como patrón de fragmentación, y puede ser usado para

identificar compuestos iguales en muestras distintas.

Formación de clusters.

En algunas ocasiones los fragmentos se pueden enlazar entre sí o con el ion

del que provienen, creando un nuevo ion que puede ser de tamaño mayor que el ion

original y que también aparecerá en el espectro de masas. Estos nuevos iones

formados por otros iones (ya sean fragmentos o el ion original) se conocen como

clusters, ya que se entienden como una “agrupación” de iones. También sería un

cluster la unión entre dos o más iones principales (sin fragmentar), como es

precisamente el caso del cluster que se observa en la figura 21 en la masa,

aproximadamente, 755,25 Da. Estos últimos clusters se conocen como dímeros (unión

de dos iones principales), trímeros (unión de tres iones principales), etc.

Variantes isotópicas.

Una molécula está formada por distintos átomos de varios elementos (carbono,

hidrógeno, oxígeno, etc.). Cada átomo (por ejemplo, cada hidrógeno de la molécula)

0 100 200 300 400 500 600 700 800 9000

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2x 10

6

X: 377.1

Y: 1.816e+06

Masa (Da)

Inte

nsid

ad

Cromatograma centrado en tiempo (1253.398 +- 2.0000) segundos

X: 307.1

Y: 5.334e+05X: 275.1

Y: 4.74e+05

X: 195.1

Y: 7.693e+04

X: 345.1

Y: 2.034e+05

X: 149

Y: 2.057e+05

Page 60: Desarrollo de técnicas de clustering en datos de ...

44

puede ser cualquiera de los isótopos de elemento (por ejemplo, si es hidrógeno, puede

ser protio o deuterio) de acuerdo con las abundancias isotópicas del elemento. La

masa de cada isótopo es distinta (por ejemplo, el protio tiene una masa de 1,007825

umas y el deuterio una masa de 2,0141018 umas) de modo que la masa del ion

depende de la masa de los átomos que lo forman y de las formas isotópicas en las que

se presenten estos átomos.

Los átomos de un elemento pueden ser un isótopo u otro según una

probabilidad de abundancia de cada isótopo. Por ejemplo, el carbono-12

(representado como 12C) es el más abundante de los isótopos del carbono, pues tiene

una abundancia del 98,93% en la naturaleza, mientras que el carbono-13 (13C)

únicamente tiene una abundancia del 1,07%. Es decir, el 98,93% de los átomos de

carbono encontrados en la naturaleza son isótopos 12C mientras que el 1,07% de los

átomos de carbono en la naturaleza son isótopos 13C.

A partir de las abundancias relativas de los isótopos y la fórmula molecular, se

puede calcular la probabilidad de encontrar una cantidad determinada de isótopos en

la molécula (por ejemplo, la probabilidad de encontrar un deuterio en vez de un protio

en una molécula con 15 átomos de hidrógeno).

Para comprender este hecho se puede observar un ejemplo; la molécula

oleuropeína, un tipo de compuesto fenólico, tiene la siguiente fórmula molecular:

Es decir, está formada por 25 átomos de carbono, 32 átomos de hidrógeno y

13 átomos de oxígeno. Podríamos calcular la masa atómica de la molécula, pero para

ello habría que suponer que todos los átomos presentes en la molécula corresponden

al isótopo principal de ese elemento, lo que posiblemente no sea cierto. Si suponemos

que cada átomo es el isótopo más abundante de su elemento, entonces el cálculo

sería (aproximadamente):

Sin embargo, hay que tener en cuenta la probabilidad de que alguno de los

átomos sea un isótopo poco abundante, por lo que cambiaría la masa. Teniendo en

cuenta que la probabilidad de tener un número determinado de isótopos en un número

determinado de átomos del elemento, depende del número de átomos, isótopos y la

probabilidad del isótopo, entonces se puede calcular la probabilidad binomial como

sigue:

(

) ( )

, donde M es el número de átomos del elemento, N es el número de isótopos en los M

átomos y p es la probabilidad de encontrar el isótopo en un átomo (abundancia del

isótopo en la naturaleza).

Por lo tanto, se puede calcular la probabilidad de tener algún átomo de un

isótopo poco abundante. Por ejemplo, si tenemos 25 carbonos, la probabilidad de que

un carbono sea 12C es 98,93% y la probabilidad de que sea 13C es 1,07%, entonces la

Page 61: Desarrollo de técnicas de clustering en datos de ...

45

probabilidad de encontrar un isótopo 13C en los 25 carbonos, se puede calcular como

sigue:

(

) ( )

Cabe destacar que la probabilidad no es despreciable, ya que es prácticamente

del 21%. En el caso de un número de átomos mayor, por ejemplo 100, podemos

calcular la probabilidad de que ninguno de los átomos sea un isótopo poco abundante:

(

) ( )

En este caso, es poco probable que todos los átomos sean el isótopo principal,

por lo que encontraríamos más abundancia de la variante isotópica, que de la

molécula formada por los isótopos principales de cada elemento. Por lo tanto, cuanto

mayor sea el número de átomos de una molécula, más probabilidad habrá de que

alguno de los átomos sea un isótopo poco abundante, por lo que será más probable

que la relación masa/carga más abundante que mida el espectrómetro de masas, sea

la de una variante isotópica de la molécula principal. Esto no ocurrirá en este trabajo,

ya que las moléculas ionizadas son ligeras, pero sí ocurre habitualmente en el estudio

de proteínas (proteómica).

Las variantes isotópicas se diferencian entre sí por una masa de,

aproximadamente, 1 uma, pero este valor realmente varía en función del isótopo de

cada elemento (por ejemplo entre 12C y 13C hay diferencia de 1,003355 uma, mientras

que entre 16O y 17O hay una diferencia de 1,0042 uma). Sin embargo, la diferencia está

en unos pocos mDa, por lo que el analizador de masas no tendrá resolución suficiente

para resolver esas masas, por lo que aparecen esas variantes isotópicas en la misma

masa.

Por lo tanto, cuando hablamos de variantes isotópicas de una molécula,

estamos referenciando el hecho de que alguno de sus átomos sea un isótopo poco

abundante, por lo que la masa de la variante isotópica será distinta de la masa de la

molécula original. Teniendo en cuenta que las variantes isotópicas tienen una

diferencia de masa de, aproximadamente, 1 uma, la diferencia de relación masa/carga

será también de 1 Da (cuando la ionización sea simple, únicamente arrancando un

protón de la molécula). Por lo tanto, en el espectrograma veremos especies isotópicas

que se distancian entre sí, aproximadamente, 1 Da (o menos si la ionización es

múltiple, como se explicará más adelante). En la figura 29 se puede observar las

variantes isotópicas asociadas a un ion con masa 463,1 Da. Si nos fijamos en el eje Y

(la relación masa/carga en Daltons) podemos observar que los isótopos están

separados aproximadamente 1 Dalton entre sí, lo que coincide con lo que hemos

explicado anteriormente. El número de variantes isotópicas que se pueden observar

en todo el espectrograma, para cada ion principal, depende de su abundancia y de la

probabilidad de aparición de variantes isotópicas.

Page 62: Desarrollo de técnicas de clustering en datos de ...

46

Figura 29. Ejemplo de variantes isotópicas en un espectrograma de alta resolución (10 mDa).

En este trabajo no se tendrá en cuenta si el ion más abundante de un

compuesto es el ion principal, sino que simplemente se obtendrán las variantes

isotópicas al obtener la huella espectrométrica de un compuesto.

Llegados a este punto ya podemos concluir en que, cuando observemos iones

saliendo en el mismo instante de tiempo y que estén separados por una relación

masa/carga de aproximadamente 1 Dalton (dado que la ionización usada produce

pocas ionizaciones múltiples), es prácticamente seguro que ambos iones sean

variantes isotópicas del mismo ion. Además, hay que tener en cuenta que habrá

variantes isotópicas tanto del ion principal, como de sus fragmentos y clusters.

Ionización múltiple.

En el proceso de ionización se dijo que el número de cargas que adquiría un

ion no es un proceso determinista, sino que dependía de las condiciones de ionización

(más concretamente de los potenciales eléctricos aplicados y condiciones del

electrospray) y de la propia naturaleza del compuesto. Por lo tanto, los iones podrán

estar cargados con una o varias cargas. Siendo así, recordemos que lo que se mide

en el espectrómetro de masas no es la masa del ion, sino la relación masa/carga

(m/z), que depende del número de cargas que tenga el ion. Así pues, un ion con masa

200 Da, si únicamente tiene una carga seguirá teniendo 200 Da al medirlo en el

espectrómetro de masas. Sin embargo, si ese ion está doblemente ionizado (dos

cargas), entonces la relación masa/carga se reducirá a la mitad. Es decir, cuanto

mayor sea el número de cargas del ion, menor será la relación masa/carga que

registramos en el espectrómetro.

Por lo tanto, si lo más habitual es que la molécula sea ionizada con una sola

carga, entonces tendremos más abundancia en la relación masa/carga del ion

principal, pero encontraremos también cierta abundancia en el resto de posibilidades.

X: 799 Y: 465.1

Index: 4.035

RGB: 1, 0.625, 0

Tiempo(s)

Masa ion (

Da)

Espectrograma de alta resolucion (10 mDa) centrado en 4.630906e+02 +- 2.50 Da

X: 799 Y: 464.1

Index: 4.701

RGB: 1, 0, 0

X: 799 Y: 463.1

Index: 5.257

RGB: 0.5, 0, 0

780 790 800 810 820 830 840

463

463.5

464

464.5

465

1

1.5

2

2.5

3

3.5

4

4.5

5

Page 63: Desarrollo de técnicas de clustering en datos de ...

47

Cuanto más duras sean las condiciones de ionización, más iones con múltiple

ionización aparecerán, por lo que cuanto más abundante sea el ion principal, más

abundantes serán los iones debidos a múltiples ionizaciones.

Anteriormente dijimos que las variantes isotópicas de un ion suelen estar

separadas por, aproximadamente, 1 Da, lo cual es cierto siempre que el ion tenga

únicamente una carga. Si el ion tiene más de una carga, entonces la variante isotópica

estará separada por menos de 1 Da, en proporción al número de cargas. Esto se

puede observar en la tabla 4.

Número de cargas (z) Relación m/z (Da) del ion principal

según el número de cargas

Relación m/z (Da) de la variante

isotópica a 1 uma

(aproximadamente).

1

2

k

Tabla 4. Ejemplo de las masas de los iones al producirse ionización múltiple.

Es decir, la ionización múltiple con k cargas, da lugar a un ion con relación

masa/carga igual a , donde “m” sería la masa del ion con una sola carga. A su

vez, los isótopos de una ionización múltiple con k cargas, están separados entre sí a

una distancia de, aproximadamente, 1/k Da, siendo “1 Da” la separación más habitual

entre isótopos de un elemento (es decir, la separación con la ionización con una

carga).

En la figura 30 se pueden ver las huellas espectrométricas de los siete

compuestos que se pueden apreciar en el espectrograma de baja resolución de la

muestra simple. Cada rectángulo amarillo delimita de forma aproximada la parte más

importante de la huella espectrométrica, aunque sabemos que dicha huella se forma

por procesos estadísticos, por lo que seguramente alguna parte menos visible o

tapada por otro compuesto (o ruido), también formará parte de la huella

espectrométrica. En el espectrograma también se pueden observar iones que salen de

forma continua en una determinada relación masa/carga, y que se “cruzan” en la

mayoría de las ocasiones con las huella espectrométricas de los compuestos. Estos

iones están asociados a lo que hemos conocido como artefactos químicos, que se

deben a las fases móvil o estacionaria de la columna separativa. El motivo de que

salgan de forma continua es que la fase móvil saldrá de la columna separativa de

forma continua, por lo que sus iones también serán analizados. También hay que tener

en cuenta que la fase móvil y la propia muestra pueden arrastrar partículas de la fase

estacionaria, por lo que salen de forma continua en varias masas. Aunque estos

artefactos químicos realmente son compuestos, nosotros los consideraremos como

ruido, ya que no nos aportan ninguna información y únicamente nos ocultan

información de interés.

Page 64: Desarrollo de técnicas de clustering en datos de ...

48

Figura 30. Espectrograma de baja resolución (1 Da) de una muestra de la colección de matrices de estándares de polifenoles. Las huellas espectrométricas están marcadas con un rectángulo.

Una vez analizados los componentes que podemos observar en la huella

espectrométrica de un compuesto (ion principal, fragmentos, clusters y las variantes

isotópicas de todos ellos), cabe destacar que la importancia de una huella

espectrométrica es que, si un compuesto se analiza con los mismos parámetros

(mismas fases de cromatografía, potenciales eléctricos aplicados, etc.) en

experimentos separados, generalmente ocurrirá un problema de difícil solución, que es

el desalineamiento temporal (el mismo compuesto sale en distintos tiempos de

retención en las distintas muestras) y de masa (el mismo ion aparece con una masa

ligeramente distinta). Sin embargo, si nosotros sabemos la huella espectrométrica de

un compuesto, y vemos que en una muestra encontramos un compuesto con

prácticamente la misma huella espectrométrica (a pesar del desalineamiento en masa

y en tiempo), entonces podemos identificar ambos compuestos y cuantificar el

desalineamiento temporal y de masas que hay entre las muestras. Esta idea se utiliza

en uno de los métodos propuestos en este trabajo, que consiste en agrupar los

compuestos de varias muestras comparando sus huellas espectrométricas.

2.3.5.2. Pico cromatográfico asociado a la salida de un ion.

Anteriormente se analizó por qué se produce y cómo es la huella

espectrométrica que aparece por un compuesto, por lo que ahora nos vamos a fijar en

cómo sale de la columna cromatográfica cada compuesto, lo que nos será de gran

ayuda más adelante. Por lo tanto, en este apartado se va a analizar la forma

cromatográfica (intensidad en función del tiempo de retención) que tiene un ion de un

compuesto (entiéndase que forme parte de la huella espectrométrica de un

compuesto). Esto nos servirá para poder generalizar cómo deben ser los picos

cromatográficos del ion de un compuesto, lo que será muy útil para utilizar distintos

umbrales a la hora de caracterizar los compuestos presentes en una muestra.

Page 65: Desarrollo de técnicas de clustering en datos de ...

49

En primer lugar pensemos en el paso de la muestra por la columna

cromatográfica, donde sus compuestos se separan los unos de los otros ya que unos

son retenidos más por la fase estacionaria, y otros tienden a ser arrastrados por la

fase móvil, por afinidad hacia ella. Sin embargo, un mismo compuesto no va a salir de

la columna cromatográfica exactamente en el mismo segundo, ya que hay que tener

en cuenta que las moléculas del compuesto se irán separando las unas de las otras a

medida que pasa el compuesto por la columna separativa, ya que tienden a

distribuirse de forma uniforme por todo el volumen que puedan. Finalmente, la

concentración de cada compuesto en función del tiempo de retención seguirá

aproximadamente una distribución gaussiana, ya que habrá una pequeña porción de la

muestra que recorrerá más rápido la columna separativa, y otra porción de la muestra

que recorrerá más despacio dicha columna. La anchura de la gaussiana vendrá dada

por la dispersión que se produce en las moléculas del mismo compuesto al atravesar

la columna separativa, que será únicamente variable según algunos parámetros con

los que se configure la columna cromatográfica, como son las fases usadas (móvil y

estacionaria), la longitud y diámetro de la columna separativa, el tratamiento previo de

la muestra, temperatura, presiones y flujos de la fase móvil.

En cualquier estudio interesará siempre que el compuesto salga con la menor

anchura posible (para optimizar la resolución cromatográfica y minimizar la

probabilidad de coelución), con lo que se conseguirá además la mayor altura posible

(siendo así fácilmente diferenciable del resto). Sin embargo, dado que la anchura de la

gaussiana dependerá únicamente del proceso cromatográfico, no podemos saber a

priori la anchura ni altura que tendrá un compuesto, tenga la concentración que tenga,

aunque sí podemos estimar unos rangos lógicos en los que estará comprendida la

anchura de la gaussiana.

Algo que será clave en este trabajo, es que la forma en la que sale cada línea

de la huella espectrométrica de un compuesto (entendiendo como “línea” a una

variante isotópica, fragmento o clúster del ion principal) ha de ser idéntica a la del resto

del compuesto. Es fácil llegar a esta conclusión ya que la abundancia de cada línea de

la huella espectrométrica depende directamente de la abundancia del ion principal del

compuesto, por lo que normalizando su abundancia, veremos que obtenemos la

misma forma cromatográfica en todos los iones que forman la huella espectrométrica

del compuesto. Idealmente serán iguales, pero en la práctica la presencia de ruido

estadístico, iónico e instrumental, hará que el perfil cromatográfico varíe entre las

especies iónicas del mismo compuesto, lo que conllevará el establecimiento de

umbrales de distancia entre perfiles cromatográficos, lo que se discutirá en la

implementación del método.

En la figura 31 se muestra cómo sale de la columna cromatográfica el ion más

abundante de una muestra simple (mezcla de estándares). Para ver cómo sale, no hay

más que hacer un cromatograma de ion extraído alrededor de su relación masa/carga.

En primer lugar hay que fijarse en la gran altura que tiene el pico cromatográfico

principal y la rapidez con la que sale de la columna cromatográfica, ya que la anchura

del pico es de, aproximadamente, 18 segundos.

Page 66: Desarrollo de técnicas de clustering en datos de ...

50

Figura 31. Cromatograma de ion extraído de la muestra 15 de la colección de matrices alrededor de la masa 463,091 Da.

Si se representa ahora el compuesto que sale aproximadamente en 191 Da, se

obtiene la representación de la figura 32. En este caso se puede observar que la

anchura del pico más grande es de aproximadamente 24 segundos, y el pico pequeño

tiene una anchura aproximada de 13,1 segundos. Sin embargo, al realizar estas

“medidas” de tiempo, hay que tener en cuenta que estoy cogiendo el punto en el que

el pico sobresale del fondo de ruido, por lo que esto será únicamente una

aproximación intuitiva a la forma y anchura de los picos.

300 400 500 600 700 800 9000

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2x 10

5

X: 791.9

Y: 5556

Tiempo (s)

inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (463.091 +- 0.0125) Da

X: 809.9

Y: 4688

X: 798.9

Y: 1.809e+05

Page 67: Desarrollo de técnicas de clustering en datos de ...

51

Figura 32. Cromatograma de ion extraído de la muestra 15 de la colección de matrices alrededor de la masa 191 Da.

En la figura 33 se puede observar una línea de la huella espectrométrica del

compuesto que sale en 498,8 segundos del tiempo de retención y la del compuesto

que sale en el tiempo de retención 600 segundos. Las líneas estás situadas alrededor

de la masa 375 Da. En este caso la anchura del pico más grande es de,

aproximadamente, 24 segundos (al igual que ocurría con el ion principal del

compuesto), y el del pico menos abundante es de, aproximadamente, 14,1 segundos.

Figura 33. Cromatograma de ion extraído de la muestra 15 de la colección de matrices alrededor de la masa 375 Da.

Algo que interesa notar de las figuras 32 y 33, es que los dos picos centrados

en 498,9 segundos, tienen una forma prácticamente igual, lo que ocurre también con

los picos dos centrados en 598 segundos. Esto ocurre porque son iones que

pertenecen a la huella espectrométrica del mismo compuesto, por lo que tienen una

forma cromatográfica prácticamente igual (ya que no dependen del proceso de

300 400 500 600 700 800 9000

1

2

3

4

5

6

7x 10

4

X: 486.9

Y: 2568

Tiempo (s)

inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (191.000 +- 0.2500) Da

X: 510.9

Y: 2316X: 592.2

Y: 2068X: 605.3

Y: 1800

X: 498.9

Y: 6.901e+04

300 400 500 600 700 800 9000

2000

4000

6000

8000

10000

12000

14000

16000

18000

X: 486.9

Y: 896

Tiempo (s)

inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (375.000 +- 0.2500) Da

X: 510.9

Y: 652

X: 591.2

Y: 720X: 605.3

Y: 552

Page 68: Desarrollo de técnicas de clustering en datos de ...

52

ionización, sino del proceso cromatográfico). Sin embargo podemos observar, sobre

todo en el pico centrado en 598 segundos, que el pico del ion más abundante (el de la

primera figura) está menos afectado por el ruido (al ser su intensidad mayor, su SNR

es también mayor) que el ion menos abundante. Esto se debe a que el pico

correspondiente al ion menos abundante tiene una intensidad media muchísimo menor

que la que tiene el ion más abundante, por lo que el fondo de ruido que hay en ambos

casos se hace mucho más comparable con el pico más pequeño (baja SNR) que con

el pico más grande (alta SNR), provocando los cambios de alta frecuencia que

observamos en la forma del pico de menor altura.

El perfil cromatográfico depende de las condiciones cromatográficas y de los

procesos de retención (que son procesos mecano-estadísticos). Variaciones en las

condiciones cromatográficas causan variaciones en los perfiles cromatográficos.

Cuando se analiza una colección de muestras, las fluctuaciones en las condiciones

cromatográficas dan lugar a desalineamientos entre los mismos compuestos en las

distintas muestras. Un ejemplo del desalineamiento temporal entre muestras de la

colección de matrices de estándares se puede observar en la figura 34, donde se

observa los cromatogramas de pico base (de ambas muestras) alrededor del mismo

compuesto y se puede observar que está desplazado dos scans. Una de las

aplicaciones potencial de la herramienta implementada en este trabajo será realizar el

alineamiento temporal entre compuestos de la misma muestra, ya que la forma de

caracterizar cada compuesto que se usa en esta herramienta, permite realizar el

alineamiento temporal entre los compuestos de una forma relativamente sencilla en

comparación con los métodos que se usan actualmente.

Figura 34. Cromatogramas de pico base acotado entre 470 y 530 segundos para dos muestras simples.

2.3.5.3. Masas asociadas a un pico cromatográfico y dispersión de las masas.

Una vez que se ha observado la forma típica de los picos cromatográficos y se

ha comentado el problema de los cambios de alta frecuencia debidos al ruido, se va a

470 480 490 500 510 520 5300

2

4

6

8x 10

4

X: 498.9

Y: 6.881e+04

Tiempo (s)

Inte

nsid

ad

Cromatograma de pico base

470 480 490 500 510 520 5300

5

10

15x 10

4

X: 500.9

Y: 1.161e+05

Tiempo (s)

Inte

nsid

ad

Cromatograma de pico base

Page 69: Desarrollo de técnicas de clustering en datos de ...

53

pasar a analizar la dispersión de las masas asociadas a un mismo ion, lo que será de

gran ayuda en las implementaciones posteriores. Para ello, en la figura 35 se observa

un espectrograma de alta resolución (10 mDa) centrado en la masa del ion más

abundante de una muestra simple (mezcla de estándares).

Figura 35. Espectrograma de alta resolución (10 mDa) centrado en la masa 463,09 Da.

Teniendo en cuenta que la escala de colores indica que las zonas de rojo

intenso presentan mayor intensidad iónica, y conforme el color tienda al azul se indica

una menor intensidad iónica, podemos observar que la zona con gran intensidad

iónica tiene las masas más agrupadas (con menos diferencia entre ellas), mientras

que conforme la intensidad iónica baja, las masas presentan una mayor dispersión.

Esto se puede observar mejor representando la relación masa/carga en función del

tiempo de retención, y viendo el mismo rango pero con mucha más precisión, como se

observa en la figura 36.

Figura 36. Entradas de masa en función del tiempo.

Tiempo(s)

Masa ion (

Da)

Espectrograma de alta resolucion (10 mDa) centrado en 4.630906e+02 +- 0.50 Da

760 770 780 790 800 810 820 830 840

463.05

463.06

463.07

463.08

463.09

463.1

463.11

463.12

463.13

1

1.5

2

2.5

3

3.5

4

4.5

5

780 790 800 810 820 830 840

463.06

463.07

463.08

463.09

463.1

463.11

463.12

X: 798.9

Y: 463.1

Tiempo(s)

Masa/c

arg

a (

Da)

Page 70: Desarrollo de técnicas de clustering en datos de ...

54

En la imagen observamos que los valores más intensos, es decir los que están

más cerca de la entrada que indica el marcador (donde está el máximo de intensidad),

están muy cerca en masa al valor de m/z que marca el máximo, mientras que

conforme la intensidad disminuye, las relaciones m/z presentan fluctuaciones bruscas.

Esto se debe a que, como se dijo en el fundamento teórico del analizador por tiempo

de vuelo, la relación masa/carga se calcula en función del tiempo de vuelo del ion en el

tubo de vacío, lo que será un proceso estadístico ya que los iones sufrirán una serie

de perturbaciones (velocidad inicial, choque con otros iones, etc.) que harán que el

tiempo de vuelo medido varíe un poco, variando con él la relación masa/carga que se

calcula. Al ser el tiempo de vuelo un proceso estadístico, cuando muchos iones

contribuyen a la medida de la masa, la incertidumbre es menor y el valor promedio de

la m/z se aproxima más al valor exacto y fluctúa poco. Sin embargo, si son pocos los

iones que contribuyen a la medida de la masa, la incertidumbre es mayor y el valor

experimental de m/z fluctúa más, desviándose algunos mDa del valor teórico exacto.

Este tipo de fluctuaciones asociadas al número de partículas que intervienen en una

medida, constituyen lo que se conoce como ruido estadístico.

Observando los datos que tenemos, vemos que cuando el pico cromatográfico

tiene mucha intensidad iónica (y por tanto la varianza de sus relaciones m/z es muy

pequeña), la diferencia máxima entre los picos es aproximadamente la resolución del

detector por tiempo de vuelo, es decir de unos pocos miliDaltons (aprox. 3 mDa). Sin

embargo, cuando la intensidad decrece (y la varianza de las relaciones m/z aumenta),

los cambios máximos entre masas que encontramos rondan los 15-20 mDa. Cuando la

intensidad es muy pequeña y nos acercamos al límite de detección (la varianza de las

relaciones m/z es muy grande), encontramos saltos mucho mayores de masas, que

pueden rondar los 50 mDa.

Una vez que se ha observado la forma de las masas en un pico cromatográfico,

se van a comentar los procesos más importantes que provocan esta dispersión,

aunque algunos ya han sido mencionados anteriormente:

Condiciones iniciales distintas antes de recorrer el tubo de vuelo.

Como se comentó cuando se explicó el espectrómetro de masas por tiempo de

vuelo, cada ion tiene una condición inicial (velocidad y posición) distinta del resto, lo

que hace que tarden tiempos distintos en recorrer el tiempo de vuelo aunque tengan

exactamente la misma masa. Esta dispersión se reduce con la incorporación del

reflectrón, pero sigue siendo un motivo importante de dispersión en la medida de la

masa.

Otra solución que se plantea es aumentar mucho el campo eléctrico que los

impulsa a recorrer el tubo de vuelo, ya que de esa forma las diferencias relativas de

las energías iniciales con la provoca por el campo, es mucho mayor, de forma que la

diferencia en los tiempos de vuelo se reduce también disminuyendo, por tanto, la

dispersión entre las masas de los iones de igual masa. Sin embargo, aumentar el

potencial eléctrico implicará un tiempo de vuelo menor por lo que, aunque la dispersión

de tiempos de vuelo también sería menor, se necesitaría una frecuencia de muestreo

muy alta que haría que la respuesta impulsiva del detector empeorase, por lo que se

implementa una solución de compromiso entre ambas situaciones.

Page 71: Desarrollo de técnicas de clustering en datos de ...

55

Interacción entre los iones al recorrer el tubo de vuelo.

Una vez que los iones están recorriendo el tubo de vuelo, las interacciones entre

ellos mismos hacen que algunos vayan más rápidos o más lentos, o incluso que

algunos de ellos no lleguen nunca al detector. Con el uso de micro-scans se reduce

bastante este problema, ya que habría pocos iones recorriendo el tubo de vuelo al

mismo tiempo y, por tanto, interferirán menos los unos con los otros.

Ancho de banda del detector.

También hay que tener en cuenta que el ancho de banda del detector no es

infinito, por lo que la llegada de un ion al detector supondrá una medida que no será

una delta de Dirac y, por tanto, no se medirá un único valor discreto de tiempo de

vuelo (o masa), sino que será una medida analógica de la intensidad en función del

tiempo de vuelo con una anchura determinada. Además, si llegan varios iones al

detector al mismo tiempo de retención y con tiempos de vuelo muy cercanos (por la

dispersión que haya ocurrido antes), sus salidas se sumarán y se obtendrá una mayor

dispersión de masa. Por lo tanto, el ancho de banda del detector también provoca que

la medida de la masa de un ion tenga más dispersión.

Cambio de presión y temperatura en el sistema de control.

Hay que tener en cuenta que el análisis de la muestra puede durar muchos

minutos o incluso horas, por lo que es normal que la temperatura de la habitación

donde se realiza el análisis cambie y lógicamente que cambie la temperatura de los

instrumentos de medida y de control. Si consideramos además que el proceso y la

medida de tiempo de vuelo viene proporcionada por un sistema de control que

gestiona todo el proceso de forma síncrona, es lógico comprender que, con los

cambios de presión y temperatura, los relojes que tenga el sistema de control sufrirán

desviaciones de precisión a lo largo del proceso, por lo que es habitual que las

medidas de masa no sean igual de precisas al principio y al final del proceso.

Para solucionar el problema de la dispersión inicial de masa, se introduce al

principio del análisis un conjunto de compuestos de masa conocida que calibren la

medida de masa. Sin embargo, los cambios de temperatura y presión a lo largo del

proceso harán que las medidas de masa no sean las mismas al final del análisis. Por

ejemplo, si se detecta una masa de 201,001 Da de un ion al principio del análisis (tras

la calibración), puede que al final del análisis se obtenga una masa de 201,005 Da

(varios miliDaltons de diferencia). Tanto esta variación de las medidas en el mismo

análisis, como la variación con otro análisis distinto, hace que dos compuestos no

tengan por qué tener exactamente la misma masa en ambos análisis (o en momento

distintos del mismo), lo que se conoce como descalibración en masa.

2.3.5.4. Supresión iónica.

La supresión iónica consiste en que la abundancia de un compuesto apantalle la ionización sobre otro compuesto menos abundante. Es decir, cuando un compuesto sale de forma muy abundante (mucha intensidad iónica) en un tiempo de retención, otros compuestos menos abundantes tendrán mucha menos intensidad de lo que deberían tener, lo que se conoce como supresión iónica. La supresión iónica se produce en el proceso de ionización (en este caso ha sido el ESI), ya que cuando la

Page 72: Desarrollo de técnicas de clustering en datos de ...

56

muestra sale del capilar (que viene de la cromatografía líquida) y forma una nebulosa, esta nebulosa se ioniza gracias a la presencia del gas seco y del potencial eléctrico aplicado, como se explicó en su momento. Sin embargo, si hay dos compuestos ionizándose al mismo tiempo, el más abundante de los compuestos recibirá la mayor parte de la energía para ionizarse, por lo que el otro compuesto tendrá menos probabilidad de ionizarse y, por tanto, su intensidad iónica se reducirá mucho.

En el cromatograma de ion extraído que se muestra en la parte superior de la

figura 37 se pueden observar 5 sustracciones iónicas muy evidentes, en los tiempos de retención siguientes: 376 segundos, 500 segundos, 634 segundos, 742,7 segundos y 798,9 segundos. Si nos fijamos en la parte inferior de la misma figura, vemos un cromatograma de pico base donde se observa claramente que las supresiones iónicas coinciden con compuestos muy abundantes.

Figura 37. Cromatograma de ion extraído (imagen superior) y de pico base (imagen inferior).

2.4. Consecuencias del paso de espectro suma a espectro de línea. Debido a la gran cantidad de datos que proporciona cada micro-scan, una vez

sumados todos los micro-scans en un espectro suma se hace absolutamente

necesario reducir el volumen de datos, por lo que, tras filtrar paso baja para suavizar

cambios bruscos, se cogen únicamente las entradas que, representando la intensidad

en función del tiempo de vuelo del ion (o de la relación masa/carga), sean máximos

locales. Esto conlleva el problema de que habrá entradas de masa que quizás tengan

información importante y que se eliminarán por haber quedado a la sombra de un

máximo local.

Este fenómeno es muy interesante de observar en algunas situaciones, ya que

el hecho de que una masa a una intensidad muy grande oculte otras masas con

intensidades más pequeñas, hace que veamos zonas del espectro que, por la

aparición de masas con intensidad muy grande, el resto de las masas cercanas no

presentan ninguna entrada, ya que se encontrarán siempre a la sombra de esta masa

muy abundante. Por lo tanto, cuando un ion sea muy abundante, podremos observar

claramente en el espectro que no hay entradas de masa cercanas a las que tiene el

300 400 500 600 700 800 9002

2.5

3

3.5

4

Tiempo (s)

Inte

nsid

ad iónic

a e

n e

scala

logarí

tmic

a Cromatograma de ion extraído en el rango de masas (206.973 +- 0.0250) Da

300 400 500 600 700 800 9003

3.5

4

4.5

5

5.5

Tiempo (s)

Inte

nsid

ad iónic

a e

n e

scala

logarí

tmic

a Cromatograma de pico base

Page 73: Desarrollo de técnicas de clustering en datos de ...

57

ion cuando sale de forma abundante, ya que todas esas entradas, aunque las hay,

quedan ocultas por el máximo local que representa la intensidad de la masa del ion

abundante. Un ejemplo en el que se observa esta situación se puede ver en la figura

38, donde hay representado un espectrograma de alta resolución (10 mDa) centrado a

una masa concreta donde hay entradas de mucha intensidad. Como se puede

observar en la imagen, hay un intervalo muy grande de relaciones masa/carga

alrededor de la del ion principal, donde no hay otras entradas aparte de las del ion

principal. Sin embargo, cuando la intensidad es más baja vemos que sí aparecen las

entradas de masa con intensidad más pequeña correspondientes a otros compuestos

o a ruido (como es el caso de la imagen).

Figura 38. Espectrograma de alta resolución.

A pesar del inconveniente de la pérdida de información, el paso de espectro suma a espectro de línea tiene también resultados muy beneficiosos, como la compactación de la información que permite su almacenamiento y un procesamiento eficiente. Además, los valores del espectro de línea son valores esperados, por lo que tienen más precisión que los valores que se obtienen del espectro suma. Es decir, se obtiene más precisión en los valores que la aportada por la frecuencia de muestreo en la señal de tiempo de vuelo.

2.5. Análisis del ruido.

En los datos de espectrometría de masas podemos encontrar tres fuentes

distintas de ruido; ruido electrónico o instrumental, ruido iónico y ruido estadístico.

Además, se considerarán también como ruido los artefactos químicos.

Ruido electrónico. Este ruido es inherente a cualquier sistema electrónico, por lo que también

afectará aquí por todo el sistema que hay desde el detector (amplificador,

electromultiplicador, conversor A/D, sistema de control, etc.). Además, hay que tener

Tiempo(s)

Masa ion (

Da)

Espectrograma de alta resolucion (10 mDa) centrado en 4.630906e+02 +- 0.50 Da

720 740 760 780 800 820 840

462.95

463

463.05

463.1

463.15

463.2

1

1.5

2

2.5

3

3.5

4

4.5

5

Page 74: Desarrollo de técnicas de clustering en datos de ...

58

en cuenta que las señales eléctricas que se consiguen crear con el detector de iones

son muy pequeñas (a pesar de la amplificación por el multiplicador de electrones), por

lo que la fase de amplificación posterior también puede hacer que el ruido electrónico

sea comparable a la intensidad del detector de iones. Dentro de este ruido se puede

considerar el ruido término y la corriente de oscuridad (corriente que produce el

detector incluso en ausencia de iones).

Ruido iónico. El ruido iónico se observa en todas las entradas aisladas de intensidad que, a

pesar de tener una intensidad notable, no parecen tener relación con ninguna especie iónica. Este ruido tiene su explicación en todos los procesos que ocurren a lo largo del vuelo de los iones en el tubo de vacío. Este tipo de ruido se corresponde con todas las medidas de masa/carga que, por la dispersión de masa que se comentó anteriormente, tengan un valor completamente anormal, provocando medidas de masa completamente incoherentes con las demás. Si bien el paso de espectro suma a espectro de línea hace que únicamente se quede con aquellas relaciones masa/carga cuya intensidad sea un máximo local, encontramos muchísimas entradas relacionadas con ruido iónico por todo el espectro.

Ruido estadístico.

El ruido estadístico se produce por la medida de masa que devuelve el analizador de masas, ya que puede ser más o menos sólida estadísticamente si se han usado más o menos medidas para determinarla. Estas medidas se producen con la llegada de iones de una determinada masa, que provocan una medida de intensidad en función del número de iones que llegan. Si llegan muchos iones, la medida de masa es mucho más precisa ya que, en conjunto, tendrán un valor medio más preciso, ya que se reducirá la incertidumbre de la medida. Sin embargo, si son pocos los iones que contribuyen a la medida de la masa, el promedio de éstos puede oscilar bruscamente ya que la incertidumbre de la medida es mayor. Este es el motivo de las fluctuaciones grandes y pequeñas de masa que se pueden observar en la figura 38.

Análisis del fondo de ruido (ruido iónico más ruido electrónico).

Una vez explicada la proveniencia tanto del ruido iónico como del ruido electrónico, vamos a ver qué consecuencias tienen en los datos, lo que hará que más adelante podamos establecer umbrales lógicos para diferenciar el fondo de ruido de los datos interesantes de un compuesto.

En primer lugar, se va a mostrar un espectrograma de baja resolución (1 Da)

de una muestra simple, en la figura 39. Sin embargo, esta muestra se ha mostrado hasta ahora con un preprocesamiento de los datos para reducir su volumen, eliminando ruido según un filtrado y un umbral que se explicarán más adelante. Sin embargo, ya que lo que nos interesa es ver el ruido de fondo, vamos a observar la muestra (acotando los límites de tiempo para que se vean los compuestos que nos interesan) con todo el ruido presente. Es inmediato observar que ahora hay muchísimo más ruido del que se mostraba antes, aunque eso se discutirá más adelante.

Page 75: Desarrollo de técnicas de clustering en datos de ...

59

Figura 39. Espectrograma de baja resolución (1 Da).

A pesar de que la figura 39 nos muestra todo el ruido presente en los datos, el espectrograma no nos aporta mucha más información sobre él, por lo que vamos a realizar un histograma de los valores de intensidad que hay en los datos, para observar qué intensidad media tiene el fondo de ruido y a partir de qué intensidad podemos obtener información de los compuestos. En la figura 40 se muestra el histograma para las intensidades menores de 1000 (ya que si se abarca más rango de intensidades no se observa bien el fenómeno que hay que apreciar).

Figura 40. Histograma de intensidades inferiores a 1000 cuentas.

Como se podía esperar, el histograma nos muestra que hay muchas entradas debidas a una intensidad baja (menor a 100) y conforme aumenta la intensidad el número de entradas decrece. Sin embargo, lo importante está en el detalle de la forma que tiene el número de entradas en función de la intensidad, ya que se pueden diferenciar dos distribuciones estadísticas de intensidad distintas, lo que nos servirá para distinguir el ruido de la información de interés. Para observar las dos distribuciones, se ha dibujado sobre el histograma una forma aproximada de dónde estaría la distribución, ya que no es fácil verlas si no se indican explícitamente. Ambas distribuciones se pueden observar en la figura 41.

Tiempo(s)

Masa ion (

Da)

Espectrograma de baja resolucion (1 Da)

100 200 300 400 500 600 700 800

200

400

600

800

1000

1

1.5

2

2.5

3

3.5

4

4.5

5

0 100 200 300 400 500 600 700 800 900 10000

1

2

3

4

5

6x 10

4 Histograma de intensidades menores a 1000

Intensidad

Núm

ero

de e

ntr

adas

Page 76: Desarrollo de técnicas de clustering en datos de ...

60

Figura 41. Histograma de intensidades inferiores a 1000 cuentas con distribuciones separadas.

Cada uno de los dos modos en el histograma estaría asociado a un proceso estadístico independiente, pudiéndose asociar la distribución de menor intensidad a los procesos de ruido electrónico y ruido iónico, mientras que la distribución de mayor intensidad se correspondería con la señal química de interés (debida a especies iónicas de los compuestos).

Teniendo en cuenta las dos distribuciones, podemos concluir en que las entradas que estén en la primera distribución (color rojo) serán, con mucha probabilidad, indistinguibles con el ruido, por lo que formarán parte del fondo de ruido, mientras que las que están en la segunda distribución (color verde) sí podrán dar información útil de los compuestos. Por lo tanto, el primer criterio que se utilizará será que todas las entradas que tengan una intensidad por debajo de donde se cruzan las dos distribuciones (que en esta muestra es una intensidad iónica de 80 cuentas), podrán ser eliminadas pues formarán parte del fondo de ruido. Conforme aumentemos el umbral de intensidad, también eliminaremos más ruido, aunque conforme lo aumentemos nos arriesgaremos a perder algún ion poco abundante que podría formar parte de la huella espectrométrica de algún compuesto y darnos información sobre los datos, por lo que podremos ser conservadores (umbral de intensidad de 80) para no perder información, o agresivos (umbral de intensidad alto, por ejemplo de 500) y eliminar mucho ruido a costa de perder información interesante. Utilizando la muestra simple, a continuación se va a analizar el efecto de varios umbrales de intensidad, tanto en volumen de datos como en aspecto del espectrograma. En primer lugar vamos a ver el volumen de datos originales y reducidos para cada umbral (notar que cada entrada es un triplete tiempo-m/z-intensidad). Como se desprende de los valores de la tabla 5, con un umbral de 80 no perdemos ninguna información distinguible del ruido y conseguimos reducir el volumen de datos a prácticamente la mitad. Si aumentamos el umbral, reduciremos drásticamente el volumen de datos pero, como se verá más adelante, se eliminará información que puede resultar de interés.

Page 77: Desarrollo de técnicas de clustering en datos de ...

61

Umbral de intensidad

0 (sin umbral)

80 150 500 1000

Número de entradas

1.359.724 721.212 256.230 5.982 2.696

Porcentaje

con el original (%)

100 53.04 18.84 0.44 0.20

Tabla 5. Reducción del volumen de datos con el aumento del umbral de intensidad.

En la figura 42 se muestran los espectrogramas de baja resolución (1 Da) para la muestra original (sin umbral) y con la aplicación del umbral de 80 cuentas. Como se puede observar en el espectrograma de la derecha (umbral 80), hay muchas más zonas de baja intensidad (azul oscuro) de las que había antes.

Figura 42. Espectrogramas de baja resolución a distintos umbrales.

Si representamos los cromatograma de ion total en la figura 43, veremos que siguen siendo prácticamente iguales.

Figura 43. Cromatogramas de ion total a distintos umbrales.

Tiempo(s)

Masa ion (

Da)

Espectrograma de baja resolución (1 Da) sin umbral

200 400 600 800

100

200

300

400

500

600

700

800

900

1000

1

1.5

2

2.5

3

3.5

4

4.5

5

Tiempo(s)

Masa ion (

Da)

Espectrograma de baja resolución (1 Da) con umbral 80

200 400 600 800

100

200

300

400

500

600

700

800

900

1000

1

1.5

2

2.5

3

3.5

4

4.5

5

300 400 500 600 700 800 9001.5

2

2.5

3

3.5

4

4.5

5

5.5

6

6.5x 10

5

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion total con umbral 80

Original

Con umbral 80

Page 78: Desarrollo de técnicas de clustering en datos de ...

62

En la figura 44 observamos el espectrograma original y el que tiene aplicado un umbral de 150. Como se puede observar, en este caso se aprecia mucho mejor la eliminación de ruido, aunque también se habrá eliminado alguna información que tuviese poca intensidad.

Figura 44. Espectrogramas de baja resolución a distintos umbrales.

En los cromatogramas de ion total representados en la figura 45 se observa otro punto de vista.

Figura 45. Cromatogramas de ion total a distintos umbrales.

Aplicando un umbral más agresivo, de 500 muestras, se obtienen los resultados que se observan en la figura 46. En este caso el cambio es muy drástico, ya que hemos eliminado una gran parte del ruido y únicamente tenemos una pequeña parte de los compuestos, aparte de algunos artefactos químicos de alta intensidad.

Tiempo(s)

Mas

a io

n (D

a)

Espectrograma de baja resolución (1 Da) sin umbral

200 400 600 800

100

200

300

400

500

600

700

800

900

1000

1

1.5

2

2.5

3

3.5

4

4.5

5

Tiempo(s)

Mas

a io

n (D

a)

Espectrograma de baja resolución (1 Da) con umbral 150

200 400 600 800

100

200

300

400

500

600

700

800

900

1000

1

1.5

2

2.5

3

3.5

4

4.5

5

300 400 500 600 700 800 9000

1

2

3

4

5

6

7x 10

5

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion total con umbral 150

Original

Con umbral 150

Page 79: Desarrollo de técnicas de clustering en datos de ...

63

Figura 46. Espectrogramas de baja resolución a distintos umbrales.

En la figura 47 se observan los cromatogramas de ion total con umbral 500, donde es inmediato observar que el fondo de ruido se ha reducido mucho, quedando únicamente los compuestos más abundantes. Sin embargo, se puede observar que los compuestos abundantes aún se distinguen (se distinguen mejor en la figura 46), por lo que aumentar mucho el umbral es de utilidad para observar las especies iónicas más abundantes de los distintos compuestos, aunque no se podrá usar un umbral tan alto para observar la huella espectrométrica completa.

Figura 47. Cromatogramas de ion total a distintos umbrales.

Por último, vamos a observar qué ocurre con un umbral 1000. En la figura 48 se observan los espectrogramas de baja resolución (1 Da) y en la figura 49 los cromatogramas de ion total. Este caso es más agresivo aún, por lo que únicamente se ven las especies iónicas más abundantes y el ruido (principalmente artefactos químicos) de muy alta intensidad.

Tiempo(s)

Masa ion (

Da)

Espectrograma de baja resolución (1 Da) sin umbral

200 400 600 800

100

200

300

400

500

600

700

800

900

1000

1

1.5

2

2.5

3

3.5

4

4.5

5

Tiempo(s)

Masa ion (

Da)

Espectrograma de baja resolución (1 Da) con umbral 500

200 400 600 800

100

200

300

400

500

600

700

800

900

1

1.5

2

2.5

3

3.5

4

4.5

5

300 400 500 600 700 800 9000

1

2

3

4

5

6

7x 10

5

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion total con umbral 500

Original

Con umbral 500

Page 80: Desarrollo de técnicas de clustering en datos de ...

64

Figura 48. Espectrogramas de baja resolución a distintos umbrales.

Figura 49. Cromatogramas de ion total a distintos umbrales.

Tras este análisis se puede concluir en que, si fijamos un umbral muy grande, perderemos mucha información pero se mantendrán los picos de mayor intensidad (especies iónicas más abundantes), pudiendo así encontrar fácilmente los iones principales de los compuestos, y una vez que sabemos dónde están esos iones, buscar a partir de ellos la huella espectrométrica completa del compuesto, que es, en líneas generales, lo que se hará en el método que se implemente en este trabajo.

Artefactos químicos.

Aunque no son propiamente ruido, los artefactos químicos que aparecen en los datos nos afectarán como si lo fuesen, por lo que se van a considerar como tal y se va a realizar un método para identificarlos y suprimirlos.

Tiempo(s)

Masa ion (

Da)

Espectrograma de baja resolución (1 Da) sin umbral

200 400 600 800

100

200

300

400

500

600

700

800

900

1000

1

1.5

2

2.5

3

3.5

4

4.5

5

Tiempo(s)

Masa ion (

Da)

Espectrograma de baja resolución (1 Da) con umbral 1000

200 400 600 800

100

200

300

400

500

600

700

800

900

1

1.5

2

2.5

3

3.5

4

4.5

5

300 400 500 600 700 800 9000

1

2

3

4

5

6

7x 10

5

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion total con umbral 1000

Original

Con umbral 1000

Page 81: Desarrollo de técnicas de clustering en datos de ...

65

Los artefactos químicos se caracterizan por salir de forma continua (durante

todo el análisis de la muestra) en una relación masa/carga constante y con una intensidad elevada. En la figura 50 se observa un espectrograma de una muestra simple en el que se han recuadrado los artefactos químicos más abundantes que se pueden observar en la muestra, aunque realmente hay muchos más.

Figura 50. Espectrograma de baja resolución (1 Da) donde se han resaltado los artefactos

químicos de mayor intensidad.

Estos artefactos se pueden deber a la fase móvil o a la fase estacionaria usadas en el proceso separativo, ya que salen de forma continua con una intensidad muy elevado y se mantienen prácticamente constante durante el tiempo que dura el análisis, con cambios muy lentos a lo largo del tiempo de retención. La fase móvil hace fluir la muestra por la columna separativa, por lo que también sale de ésta y se puede ionizar y aparecer en los datos en todo el análisis. Además, tanto la fase móvil como la propia muestra, pueden arrastrar partículas de la fase fija (o estacionaria) y hacer que lleguen a la interfaz de ionización, haciendo que el espectrómetro de masas detecte iones con la masa correspondiente a dichas partículas a lo largo de todo el análisis. Es habitual que los artefactos se mantengan con una intensidad prácticamente constante (ejemplo en la imagen superior de la figura 37) y se verá altamente afectada por la supresión iónica, ya que estará siempre saliendo y se verá afectada por cada compuesto que salga a lo largo del análisis. También es posible que la intensidad del artefacto químico aumente a lo largo del análisis, lo que puede ser debido a un mayor arrastre de la fase fija, o a un aumento del flujo inyectado en la columna separativa. Este caso se puede observar en la figura 51.

Page 82: Desarrollo de técnicas de clustering en datos de ...

66

Figura 51. Espectrograma de baja resolución donde se observa un artefacto químico.

2.6. Preprocesamiento de las muestras. En este apartado se va a estudiar cómo pasar de los ficheros que obtenemos

del espectrómetro de masas, a los datos que podemos utilizar con Matlab, y qué preprocesamiento realizaremos en ellos para obtener un volumen de datos más manejable, eliminando ruido y acotando el tiempo del análisis de la muestra.

2.6.1. Manipulación de datos obtenidos por el espectrómetro de masas.

Como se comentó en la sección del analizador de masas, cada espectro de línea se almacena en ficheros propios del fabricante del analizador de masas, codificando cada dato como un float de 32 bits. En el caso de este trabajo, se disponen de datos obtenidos con un analizador de tiempo de vuelo microTOFTM de la empresa Bruker Daltonik, que almacena la salida en ficheros de extensión “.baf”. Estos ficheros se pueden procesar y exportar a ficheros XML (eXtesible Markup Language) mediante el uso del software que proporciona la propia empresa.

Una vez que se tienen los ficheros en formato XML, podemos observar qué

estructura tienen. En primer lugar, el fichero XML contiene una cabecera que muestra detalles del analizador de masas con el que se obtuvieron los datos, así como el método de ionización que se usó. Además, da diferentes datos como el operador que obtuvo los datos, con qué programa se pasaron a XML, etc. Esto se puede observar en la figura 52.

Figura 52. Cabecera de fichero XML.

Tiempo(s)

Masa ion (

Da)

Espectrograma de baja resolucion (1 Da)

300 400 500 600 700 800

183.5

184

184.5

185

185.5

186

186.5

187

1

1.5

2

2.5

3

3.5

4

4.5

5

Page 83: Desarrollo de técnicas de clustering en datos de ...

67

Después de esta cabecera, en la figura 53 se observa que el fichero muestra los datos obtenidos separados por espectros de línea (en este caso aproximadamente un espectro de línea por segundo). De cada espectro de línea muestra algunas características (tiempo de retención, número de picos, polaridad, etc.) que pueden ayudar a obtener e interpretar los datos del fichero XML y, tras mostrar la precisión con la que se almacenan los datos, se muestran las parejas m/z – intensidad iónica. En la figura 53 se muestran las entradas del fichero relativas a los 4 primeros espectros de línea (recortadas por la derecha ya que la línea de las entradas se extiende mucho más). Algo importante a tener en cuenta es que los datos binarios de cada espectro de línea se codifican en base 64 para no tener problemas de portabilidad al usar otros sistemas, a pesar de que se aumenta el tamaño en el que son almacenados (cada 3 bytes se codifican en base 64 utilizando 4 bytes).

Figura 53. Algunas entradas del fichero XML.

Finalmente, el fichero muestra la suma acumulativa de las entradas para cada espectro de línea, lo que hace que sea más fácil su posterior manipulación. Por ejemplo, en la figura 54 se observa sus entradas para los diez primeros espectros de línea.

Figura 54. Cantidades acumuladas de las entradas de cada espectro de línea.

Una vez comentada la estructura del fichero XML, únicamente habría que implementar un script que leyese los valores de cada espectro de línea del fichero XML, y los pasase al formato que nos interesa, que en nuestro caso será un fichero de extensión “.bin” por comodidad para operar con él desde Matlab, aunque previamente tendremos que decodificar los datos, que están en base 64 como se ha comentado.

Una vez convertidos los ficheros de XML a formato binario (extensión .bin),

podemos leerlos fácilmente y hacer un preprocesamiento de ellos para eliminar ruido y reducir con ello el volumen de datos. 2.6.2. Aplicación de un umbral de intensidad.

En primer lugar aplicaremos un umbral conservador de intensidad y

eliminaremos todas las entradas que estén por debajo de ese umbral. Para establecer el umbral, hace falta recordar lo que se explicó de las distribuciones del ruido, donde dijimos que para la colección de muestras de las matrices de estándares de polifenoles, aplicar un umbral de intensidad de 80 cuentas no provocaría pérdida de información, y en cambio reduciría prácticamente a la mitad el volumen de datos. En la figura 55 se observa el histograma de la primera muestra del conjunto de muestras de extractos fenólicos de aceites, para determinar el punto en el que se pasa de una

Page 84: Desarrollo de técnicas de clustering en datos de ...

68

distribución a otra, que como dijimos nos indica de forma aproximada el umbral de intensidad a partir de cuál la información está por encima del ruido y, por tanto, es diferenciable de éste.

Figura 55. Histograma de la intensidad para una muestra de extracto fenólico de aceite.

En esta muestra resulta más difícil observar el cambio de una distribución a otra, aunque se puede observar que es, aproximadamente, para una intensidad de 120 cuentas. Por lo tanto, de este conjunto de muestra eliminaremos automáticamente todas las muestras por debajo de este umbral, ya que no aportarán más que ruido. Como se ha podido observar, en ambas colecciones se ha tenido que hacer la elección del umbral de forma manual, por lo que una línea futura de desarrollo podría ser la búsqueda de un umbral mínimo de intensidad. Esta posibilidad se añadirá en la sección “líneas futuras” para dejar constancia de ella. Aplicando un umbral de intensidad de 120 cuentas a la muestra 1 del conjunto de aceites, pasamos de tener 6.717.788 entradas de datos (cada una de ellas sería a su vez tres datos; tiempo, masa/carga e intensidad) a 2.528.862 entradas de datos, reduciendo así el volumen de datos a manejar al 37,64%. 2.6.3. Algoritmo de reducción de ruido.

Sin embargo, aún vamos a aplicar una reducción de volumen de datos mayor a los dos conjuntos de muestras, ya que podemos aplicar también una condición sencilla para eliminar ruido; esta reducción de ruido se basa en que un compuesto sale de la columna separativa de forma aproximadamente gaussiana, por lo que una entrada de datos asociada a un compuesto deberá tener siempre entradas asociadas a su compuesto tanto antes de ella (menos tiempo de retención), como después (más tiempo de retención). Sin embargo, también hay que tener en cuenta que, para que las entradas estén asociadas al mismo ion, han de tener aproximadamente la misma masa. Como vimos anteriormente, cuando hay poca intensidad las masas tienden a dispersarse más, llegando a dar saltos del orden de 50 mDa. Por lo tanto, ya que no se debe eliminar ninguna información relevante, vamos a poner una ventana de masa lo suficientemente grande para hacer una eliminación conservativa del ruido. En este

0 100 200 300 400 500 600 700 800 900 10000

0.5

1

1.5

2

2.5x 10

5

Bin Count: 1.28e+05

Bin Center: 120

Bin Edges: [120, 121]

Histograma de las intensidades menores de 1000

Intensidad

Núm

ero

de c

uenta

s

Page 85: Desarrollo de técnicas de clustering en datos de ...

69

trabajo se impondrá como condición para conservar una entrada que en el espectro anterior y posterior (ventana de 3 segundos) tiene que observarse una entrada con una masa que se diferencie menos de 50 mDa. Si esa condición no se cumple, se interpreta que la entrada es debida a ruido (iónico o electrónico) y se elimina. Por lo tanto, para el preprocesamiento de las muestras, se aplica este filtrado a los datos originales aplicando además un umbral de intensidad de 80 cuentas, en el caso de la colección de muestras de matrices de polifenoles, y 120 cuentas para la colección de muestras de aceites. Para observar los resultados generales, mostramos en la tabla 6, la reducción en volumen de datos (número de entradas, donde cada entrada es un triplete de datos tiempo-masa/carga-intensidad) para la muestra 15 de la colección de matrices de estándares, y la muestra 1 de la colección de aceites de oliva. Como podemos observar en la tabla 6, hemos reducido el número de entradas en la muestra 15 de la colección de matrices al 5,91% del volumen original (aplicando únicamente el umbral se conseguía un 53,04% del volumen original) y el de la muestra 1 de la colección de aceites se ha reducido al 9,85% del volumen original (aplicando únicamente el umbral se conseguía un 37,64% del volumen original), por lo que podemos concluir en que se ha reducido mucho más el volumen de datos, lo que ayudará a que los métodos implementados sean más rápidos.

Umbral de intensidad aplicado

Número de entradas originales

Número de entradas

tras filtrado y umbral

Porcentaje (final/original)

Muestra 15 de la colección de

matrices de estándares

80 5.606.026 331.333 5,91 %

Muestra 1 de la

colección de aceites de oliva

120 6.717.788 661.560 9,85 %

Tabla 6. Reducción del número de entradas tras el filtrado de ruido.

Para obtener más información, se pueden representar los espectrogramas de baja resolución (1 Da) y los cromatogramas de ion total de ambas muestras antes y después del filtrado y de la aplicación del umbral. En la figura 56 observamos los espectrograma de baja resolución (1 Da) de la muestra 15 de la colección de matrices de estándares. A simple vista se puede observar que se ha eliminado una cantidad enorme de ruido, manteniendo los compuestos interesantes que había en la muestra, y los artefactos químicos que salen en continua.

Page 86: Desarrollo de técnicas de clustering en datos de ...

70

Figura 56. Espectrogramas de baja resolución (1 Da) antes y después del filtrado.

En la figura 57 se representan los cromatogramas de ion total y se puede observar que los picos relativos a compuestos se mantienen abundantes, aunque el que está en 411 segundos sigue viéndose poco (aunque es normal ya que los artefactos químicos hacen que no se le dé mucha importancia a este compuesto en un cromatograma).

Figura 57. Cromatogramas de ion total antes y después del filtrado.

En la figura 58 observamos el espectrograma de baja resolución (1 Da) y el cromatograma de ion total (figura 59) de la muestra 1 de la colección de aceites de oliva, antes y después del filtrado. Como se puede observar en los espectrogramas, se ha reducido drásticamente el ruido, sobre todo en zonas donde no hay compuestos saliendo de la columna separativa. En el cromatograma observamos los mismos picos que antes, pero con mucha menos intensidad por la ausencia de tanto ruido.

Tiempo(s)

Masa ion (

Da)

Espectrograma de baja resolución (1 Da) de la muestra original

200 400 600 800

100

200

300

400

500

600

700

800

900

1000

1

1.5

2

2.5

3

3.5

4

4.5

5

Tiempo(s)

Masa ion (

Da)

Espectrograma de baja resolución (1 Da) tras filtrado y umbral 80

200 400 600 800

100

200

300

400

500

600

700

800

900

1000

1

1.5

2

2.5

3

3.5

4

4.5

5

300 400 500 600 700 800 9000

1

2

3

4

5

6

7x 10

5

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion total

Original

Filtrado y con umbral 80

Page 87: Desarrollo de técnicas de clustering en datos de ...

71

Figura 58. Espectrogramas de baja resolución (1 Da) antes y después del filtrado.

Figura 59. Cromatogramas de ion total antes y después del filtrado.

2.6.4. Limitación del tiempo de retención.

Llegados a este punto se ha eliminado ruido poniendo un umbral que se justificó con el histograma y realizando un filtrado según un criterio basado en la forma en la que sale el compuesto de la columna cromatográfica. Sin embargo, algunas imágenes mostradas hasta ahora (en concreto las relativas a las muestras del conjunto de matrices de estándares) habían sido ya manipuladas para poder observar de forma clara los compuestos que había en ellas, ya que realmente el tiempo en el que se desarrollaba el análisis era mucho mayor de lo que se mostraba. Por ejemplo, en la figura 60 se muestra el espectrograma de baja resolución de la muestra 15 de la colección de matrices de estándares, sin limitar el tiempo de retención que se muestra (y sin realizar ningún tipo de preprocesamiento, ni filtrado ni umbral de intensidad).

Tiempo(s)

Masa ion (

Da)

Espectrograma de baja resolución (1 Da) de la muestra original

500 1000 1500

100

200

300

400

500

600

700

800

900

1000

1

1.5

2

2.5

3

3.5

4

4.5

5

5.5

Tiempo(s)

Masa ion (

Da)

Espectrograma de baja resolución (1 Da) tras filtrado y umbral 120

500 1000 1500

100

200

300

400

500

600

700

800

900

1000

1

1.5

2

2.5

3

3.5

4

4.5

5

5.5

0 200 400 600 800 1000 1200 1400 16000

0.5

1

1.5

2

2.5

3

3.5x 10

6

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion total

Original

Filtrado y con umbral 120

Page 88: Desarrollo de técnicas de clustering en datos de ...

72

Figura 60. Espectrograma de baja resolución (1 Da) complete.

Como se puede observar en la figura 60, el análisis dura mucho más de lo que se mostraba inicialmente (300 a 850 segundos), durando aproximadamente 2.100 segundos. Sin embargo se puede observar con claridad la presencia de compuestos que salen prácticamente para todas las masas en los primeros tiempos de retención (en la imagen desde 0 hasta 50 segundos aproximadamente), lo que se corresponde con una calibración inicial del analizador de masas para la precisión de las medidas de masa. Al final del análisis podemos observar que ocurre algo parecido (entre los 1.200 y los 1.800 segundos), ya que súbitamente aparecen compuestos en un rango de masas enorme, lo que se debe al lavado de la columna separativa que realiza el técnico tras pasar el tiempo de retención en el que se piensa que salen los compuestos interesantes de la muestra. La aparición de compuestos en esta zona de lavado tiene un rango de masas tan grande ya que la idea del lavado es introducir un líquido que arrastre todo lo que no haya salido de la columna separativa, para dejarla lo más limpia posible, por lo que algunos de los compuestos que hayan ido saliendo a lo largo del análisis (incluidos los artefactos químicos), saldrán en pequeñas dosis arrastrados por el flujo de lavado (ya que parte de esos compuestos se pueden haber quedado retenidos en parte por la fase estacionaria).

Esta parte de calibración y lavado no interesa que esté presente en la

búsqueda de compuestos y sus huellas espectrométricas, ya que únicamente introducirán muchísimos resultados de compuestos que no interesan. En un principio se usaron los métodos sobre las muestras sin limitar los tiempos del análisis y, aunque el método seguía agrupando los compuestos en su huella espectrométrica correctamente, aparecían muchísimos compuestos en las zonas de calibración y de lavado (sobre todo en esta última), haciendo mucho mayor el volumen de resultados y más difícil la búsqueda de los compuestos de interés entre todos los que se encontraban.

Lo ideal para solventar este problema es que el calibrado no aparezca en los

datos de salida (es decir, se realice la calibración pero no se muestre su salida), ni tampoco la salida debida al lavado. Además, el lavado ha de realizarse mucho después de que salga el último compuesto interesante de la columna separativa, ya que en caso contrario se puede dar el caso de que un compuesto esté saliendo al mismo tiempo que se ha comenzado el proceso de lavado. Para buscar los límites del análisis, se puede mirar el espectrograma de baja resolución y el cromatograma de ion total para determinar cuándo empieza a

Tiempo(s)

Masa ion (

Da)

Espectrograma de baja resolucion (1 Da)

200 400 600 800 1000 1200 1400 1600 1800 2000

100

200

300

400

500

600

700

800

900

1000

1

1.5

2

2.5

3

3.5

4

4.5

5

Page 89: Desarrollo de técnicas de clustering en datos de ...

73

interesarnos el análisis y cuando deja de hacerlo.

Para la colección de matrices de estándares.

En la figura 61 se representa el cromatograma de ion total de una muestra de la colección de matrices de estándares.

Figura 61. Cromatograma de ion total completo.

La cota de tiempo superior es evidente dónde podemos marcarla, ya que tanto el espectrograma que se enseñó antes, como el cromatograma que se observa ahora, muestran que a partir del compuesto que aparece en 798,9 segundos, no hay ningún compuesto de interés, por lo que podemos quitar las entradas a partir de, por ejemplo 840 segundos, con lo que habremos dado tiempo más que suficiente ion principal de ese compuesto a terminar de salir. La cota de tiempo inferior es un poco más difícil de elegir, ya que realmente vemos que hay varios compuestos entre los 80 y los 300 segundos que antes no se han tenido en cuenta a la hora de hablar de esta muestra. En cualquier aplicación del método implementado en este trabajo, esos compuestos se deberían analizar por lo que la cota inferior sería de 80 segundos (aproximadamente). Sin embargo, la idea de tener dos colecciones de muestras es tener una colección para realizar comprobaciones generales y explicaciones, que sería la fácil (la de las matrices de estándares), y otra colección más complicada cuyo objetivo sería ver el método en una aplicación menos idealizada. Por lo tanto, dado que esta colección nos sirve para explicaciones y comprobaciones, vamos a dejar fuera del rango los compuestos que hay por debajo de 300 segundos, ya que el resto de compuestos están muy bien documentados y podremos realizar las comprobaciones que deseamos con ellos. Dicho esto, la cota de tiempo inferior sería de 300 segundos.

Para la colección de extractos fenólicos de aceites de oliva.

En las figuras 62 y 63 se puede observar, respectivamente, el espectrograma de baja resolución (1 Da) y el cromatograma de ion total de una muestra de la colección de extractos fenólicos de aceites de oliva.

0 500 1000 1500 2000 25000

0.5

1

1.5

2

2.5x 10

6

X: 841.1

Y: 2.468e+05

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion total

X: 798.9

Y: 6.275e+05

X: 78.46

Y: 2.205e+05

X: 300.2

Y: 2.296e+05

Page 90: Desarrollo de técnicas de clustering en datos de ...

74

Figura 62. Espectrograma de baja resolución (1 Da) completo.

Figura 63. Cromatograma de ion total completo.

Como se puede observar en las figuras 62 y 63, la cota inferior de tiempo es ahora más sencilla, ya que antes de 200 segundos únicamente encontramos la parte de calibración y unos picos provocados por un aumento brusco de la intensidad de un compuesto que aparece en una masa/carga de forma continua, lo que provoca que se vean esos pequeños picos. Para la cota superior de tiempo, en el espectrograma se observa muy claramente que, cuando se pasan de los 1.300 segundos, empiezan a salir muchos compuestos en todo el rango de masas, correspondientes a todos los compuestos que arrastra el lavado en la columna separativa. En esta situación podríamos poner dos cotas superiores lógicas, una más restrictiva que elimina todo lo que sale después de los 1.350 segundos, y otra más conservativa que elimina la parte más abundante del flujo de lavado, que se produce a partir de los 1.410 segundos (aproximadamente). En este caso vamos a coger la cota más restrictiva (1.350 segundos) ya que no queremos que el lavado afecte a los resultados interesantes. Además, hay que tener en cuenta que, si el técnico ha comenzado el lavado “tan pronto”, seguramente será porque sabe que los compuestos que está buscando (o que quiere encontrar) salen en unos tiempos de retención determinados (aproximados) y muy inferiores al tiempo en el que empieza a lavar la columna separativa. Por lo tanto, poner una cota superior de 1.350

Tiempo(s)

Masa ion (

Da)

Espectrograma de baja resolucion (1 Da)

200 400 600 800 1000 1200 1400

100

200

300

400

500

600

700

800

900

1000

1

1.5

2

2.5

3

3.5

4

4.5

5

5.5

0 200 400 600 800 1000 1200 1400 16000

0.5

1

1.5

2

2.5

3

3.5x 10

6

X: 1409

Y: 1.713e+06

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion total

X: 199.8

Y: 4.728e+05

X: 1351

Y: 1.218e+06

Page 91: Desarrollo de técnicas de clustering en datos de ...

75

segundos (o incluso 1.300) no sería demasiado agresivo ya que los compuestos que busca el técnico deberían haber salido ya. Una vez más se observa el beneficio de que se incluyesen los tiempos de calibración y de lavado en los resultados de un análisis, ya que harían que esta evaluación manual fuese innecesaria y con menos posibilidad de error. En la tabla 7 se muestran las cotas de tiempos de retención inferiores y superiores que se aplicarán a cada colección de muestras.

Cota inferior (segundos)

Cota superior (segundos)

Colección de muestras

de matrices de estándares

300 841

Colección de muestras

de aceite de oliva 200 1350

Tabla 7. Cotas de tiempo superiores e inferiores para cada colección de muestras.

Page 92: Desarrollo de técnicas de clustering en datos de ...

76

3. Realización.

En este apartado se va a describir qué pasos realiza la herramienta para obtener la caracterización de los compuestos. Una vez implementada, se afinarán algunos umbrales de forma experimental, observando el resultado en una muestra simple y comentando las distintas soluciones de compromiso que se han tenido que ir adoptando para llegar a un resultado adecuado. Dado que será evidente la necesidad de un método que identifique y suprima los artefactos químicos, se explicarán los pasos que han llevado a desarrollar dicho método, del que no se tiene constancia de que haya sido implementado hasta el momento. Tras su desarrollo se implementa el último método de este trabajo con el objetivo de agrupar automáticamente todos los compuestos que resultan de aplicar la detección y caracterización de compuestos a cada una de las muestras de una colección.

3.1. Implementación de la herramienta para detección y caracterización de compuestos en muestras obtenidas mediante HPLC-ESI-TOF. El objetivo del método implementado es detectar cada compuesto de la

muestra y, partiendo de él, agrupar su huella espectrométrica. Una vez hecho esto, se

calculan aspectos importantes de cada compuesto y de las líneas presentes en su

huella espectrométrica (entendiendo por línea cada especie iónica que provengan de

la molécula principal del compuesto).

La novedad de este método es que realiza primero una búsqueda muy rápida

por los datos para localizar las especies iónicas más abundantes de la muestra,

comparándolas entre sí para identificar las especies iónicas que correspondan al ion

más abundante de cada compuesto. Una vez identificado el ion más abundante de

cada compuesto, se compara su forma cromatográfica con el resto de especies iónicas

que haya en un tiempo de retención aproximadamente igual al suyo, esta vez con un

umbral bajo para no perder información.

La comparación entre formas cromatográficas (o picos cromatográficos) se

hace por proyección de funciones en el espacio vectorial de funciones que representan

los perfiles cromatográficos. Esta comparación se basa en la idea de que los iones que

se formen a partir de una molécula principal (por ser una variante isotópica, un

fragmento o un cluster), tendrán el mismo perfil cromatográfico salvo por una

constante multiplicativa, por lo que normalizando ambas agrupaciones, la forma

cromatográfica de ambas debería ser prácticamente la misma (realmente debería ser

exactamente la misma si no hubiese ruido ni efectos no lineales). Las agrupaciones

con poca intensidad iónica que tengan una similitud alta con el ion principal, se

asignarán al compuesto de ese ion principal y formarán parte de su huella

espectrométrica. Una vez se tienen agrupados todos los compuestos con sus huellas

espectrométricas, se calculan parámetros de cada pico cromatográfico para que

podamos cuantificar la abundancia de los compuestos y de sus iones secundarios

asociados. Estos parámetros serán las áreas cromatográficas, que darán una idea de

la abundancia iónica el compuesto en la muestra, y las desviaciones estándar de masa

y tiempo, que darán una idea de cómo de ancho es el pico, tanto a nivel de relación

masa/carga como a nivel de tiempo de retención.

Page 93: Desarrollo de técnicas de clustering en datos de ...

77

Por lo tanto, el método se puede resumir en los siguientes pasos:

Búsqueda de agrupaciones de entradas (tripletes de valores tiempo-

masa/carga-intensidad) muy abundantes con un umbral de intensidad alto.

Comparación de las agrupaciones entre sí para determinar cuál es la principal

de cada compuesto de la muestra.

Para cada agrupación principal de un compuesto, se buscan agrupaciones de

iones poco abundantes con un umbral bajo que salgan aproximadamente en el

mismo tiempo de retención. Si la comparación entre la agrupación poco

abundante y la agrupación debida al ion principal presenta una correlación alta,

entonces se asignará a la huella espectrométrica de ese compuesto.

Por último se guardan los datos más importantes de los iones principales de

cada compuesto, y las huellas espectrométricas de cada compuesto, en tablas,

de forma que la información relevante queda representada de forma muy

compacta.

El desarrollo de este método permite también simplificar soluciones a

problemas actuales en el campo del análisis LC-MS. Por ejemplo, la alineación de

compuestos en tiempo de retención entre varias muestras sería algo mucho menos

complicado, ya que si en ambas muestras tenemos el mismo compuesto (aparece en

ambas tablas con una huella espectrométrica lo suficientemente parecida), entonces

podremos realizar la calibración de tiempo de retención entre ambas muestras

fijándonos únicamente en la diferencia de tiempos que hay entre ese compuesto en las

dos muestras distintas. Por el mismo motivo, la calibración en relación masa/carga

entre muestras distintas sería también un proceso también mucho más sencillo.

Otra ventaja que tiene el conseguir agrupar los compuestos y sus huellas

espectrométricas en tablas, es que podemos comparar entre sí todas las muestras de

una colección y obtener una tabla de todos los compuestos que hay en la colección,

diciendo qué compuesto aparece en cada tabla, de forma que finalmente reduciríamos

todas las muestras de una colección, a una serie de tablas donde tendríamos los

compuestos que hay en esa colección. Este proceso de agrupación de compuestos de

una colección de muestras se ha realizado también en este trabajo tras implementar el

método principal.

También hay que tener en cuenta que este método reduce una cantidad

enorme de información a unas tablas donde se compacta la información más

importante. El método es también útil cuando se quiere realizar una búsqueda ciega

(no se sepa lo que hay) en una muestra. Por ejemplo, si se tiene una muestra de

composición desconocida y se quiere caracterizar a la perfección, el proceso será

mucho más sencillo ya que, mientras que antes había que ir cromatograma a

cromatograma buscando de forma manual los picos (recorriendo miles de

cromatogramas), ahora se puede aplicar la herramienta para que aporte la información

que se necesita y, en caso de que se quiera hacer alguna comprobación (porque un

compuesto encontrado no está documentado en ninguna base de datos y se quiera

comprobar si es un nuevo compuesto, por ejemplo), las comprobaciones se reducirían

a observar unos pocos cromatogramas, con lo que el resultado se simplifica

significativamente.

Page 94: Desarrollo de técnicas de clustering en datos de ...

78

A continuación se van a exponer los pasos en los que se divide el método, y

cómo se ha realizado la implementación. La forma de implementar cada paso es muy

importante ya que supone tomar decisiones importantes muy variadas, que afectarán

directamente a los resultados (sobre todo a la eficiencia) y que tendrán que tener

coherencia para que el resultado sea adecuado.

3.1.1. Primer paso. Búsqueda de los iones más abundantes. En primer lugar se van a buscar las agrupaciones de entradas con una

intensidad iónica mayor (mayor abundancia) ya que entre ellos estarán los iones

principales de cada compuesto. Para realizar esta búsqueda, vamos a establecer un

umbral de intensidad alto para que únicamente encontremos agrupaciones de

entradas más abundantes. Sin embargo, si fijamos un umbral demasiado alto, nos

arriesgamos a que algún ion principal de un compuesto quede debajo del umbral, con

lo que no detectaríamos dicho compuesto. Por otra parte, si fijamos un umbral

demasiado bajo, nos arriesgaremos a coger iones que únicamente se deben a ruido y

obtendremos falsos positivos, aparte de que el proceso será mucho más lento. Esta

parte es crítica ya que cada agrupación principal que se determine que es el ion

principal de una compuesto, provocará una búsqueda de agrupaciones secundarias

que coincidan con su pico cromatográfico para formar su huella espectrométrica, por lo

que el hecho de bajar este umbral de intensidad hace que haya más falsos positivos,

provocando que se realicen más agrupaciones de huellas espectrométricas y, por

tanto, tardando mucho más innecesariamente.

Cuando se ejecute el método, se dirá qué umbral se ha usado, ya que se usará

uno distinto para la colección de aceites y otro para la colección de matrices de

estándares. Sería interesante disponer de un algoritmo que calculase

automáticamente el umbral alto que se debe usar para cada muestra, lo que se

comentará en las posibles mejoras del método pero que no se podrá abordar en este

trabajo por falta de tiempo. Además, como se comentará en el apartado de “líneas

futuras”, el uso de umbrales de intensidad adaptativos (que dependen del contexto de

cada zona donde se apliquen) es una buena vía de mejora del método implementado.

Para realizar este paso, se realizarán varios procedimientos.

Agrupación de las entradas según ventanas de tiempo de retención y

relación masa/carga, para un umbral de intensidad alto.

Para buscar los picos cromatográficos más abundantes, en primer lugar hay

que agrupar las entradas que pueden contener dichos picos, por lo que se aplica un

umbral de intensidad alto a la muestra. Aplicando un umbral alto (2.000 cuentas) a la

muestra 15 de la colección de matrices de estándares, y eliminando previamente los

artefactos químicos para que los datos sean más limpios, en la figura 64 se observan

las entradas que han superado el umbral. Como se puede observar, hay entradas de

cada uno de los compuestos de la muestra, por lo que se identificarán todos si el

proceso se hace de forma correcta.

Page 95: Desarrollo de técnicas de clustering en datos de ...

79

Figura 64. Entradas por encima del umbral de intensidad alto.

Los picos cromatográficos que nos interesan tendrán todas sus entradas con

una alta intensidad, por lo que podemos basarnos en el estudio que hicimos del tiempo

de retención y de la relación masa/carga para agrupar las entradas en grupos con

tiempos de retención contiguos (las entradas se distancian en pocos segundos) y

relaciones masa/carga próximas. Sabiendo que las entradas a alta intensidad se ven

afectadas en menor medida por cualquier tipo de ruido (electrónico, iónico o

estadístico), podemos establecer gaps de tiempos de retención y de relación

masa/carga para agrupar las entradas en un mismo cluster (entendiendo, en este

contexto, un cluster como una ventana de tiempo de retención y de relación

masa/carga). En la implementación se agrupan entradas si tienen una diferencia de

unos pocos segundos (o scans) y de menos de 25 mDa, ya que a estas intensidades

las fluctuaciones en masa/carga son muy pequeñas por una menor presencia de ruido

estadístico.

Tiempo(s)

Masa ion (

Da)

Espectrograma de baja resolucion (1 Da)

400 450 500 550 600 650 700 750 800

100

200

300

400

500

600

1

1.5

2

2.5

3

3.5

4

4.5

5

Page 96: Desarrollo de técnicas de clustering en datos de ...

80

Figura 65. Agrupaciones realizadas.

Realizando la agrupación de las entradas en clusters, se obtienen las

agrupaciones que pueden verse en la figura 65. Sin embargo, para observar mejor las

agrupaciones, se va a hacer zoom en un intervalo menor de tiempo de retención y

relación masa/carga, como se puede observar en la figura 66. En esta figura se

observa con mucha más claridad las agrupaciones que se han hecho de las entradas.

Figura 66. Agrupaciones realizadas en el rango de 590 a 645 segundos y 130 a 191 Da.

Tiempo(s)

Masa ion (

Da)

Espectrograma de baja resolucion (1 Da)

400 450 500 550 600 650 700 750 800

100

200

300

400

500

600

1

1.5

2

2.5

3

3.5

4

4.5

5

Tiempo(s)

Masa ion (

Da)

Espectrograma de baja resolucion (1 Da)

600 610 620 630 640

140

150

160

170

180

190

1

1.5

2

2.5

3

3.5

4

4.5

5

Page 97: Desarrollo de técnicas de clustering en datos de ...

81

Una vez realizada la agrupación, realmente no podemos estar seguros de que

cada agrupación tenga contenido un único pico cromatográfico, por lo que habrá que

analizar cada una de las agrupaciones para distinguir los picos cromatográficos que

estén en el mismo grupo. Por ejemplo, para el mismo análisis pero usando la muestra

1 de la colección de extractos de aceites de oliva, en la figura 67 se observan tres

agrupaciones completas de entradas (y una parte de otra) correspondientes a dos

isómeros de la oleuropeína aglicona y a la variante isotópica principal de cada uno de

ellos.

Figura 67. Agrupaciones realizadas en el rango de 590 a 645 segundos y 130 a 191 Da.

Si se representa el cromatograma de ion extraído correspondiente a la

agrupación más abundante de la figura 67 (la de masa 377 Da), se puede observar

que realmente agrupa tres picos cromatográficos, como queda reflejado en la figura

68. De los tres picos cromatográficos, dos son muy evidentes y se pueden distinguir

perfectamente entre sí, mientras que el menos abundante coeluye con uno de los

abundantes, solapándose sus perfiles cromatográficos. Por lo tanto, queda patente la

necesidad de separar los picos cromatográficos dentro de agrupación, que será el

siguiente paso a realizar en el método.

Tiempo(s)

Masa ion (

Da)

Espectrograma de baja resolucion (1 Da)

750 800 850 900 950

375.5

376

376.5

377

377.5

378

378.5

379

379.5

1

1.5

2

2.5

3

3.5

4

4.5

5

5.5

Page 98: Desarrollo de técnicas de clustering en datos de ...

82

Figura 68. Cromatograma de ion extraído para observar isómeros de la oleuropeína aglicona.

Separación de picos cromatográficos de cada agrupación de entradas.

Para separar los picos cromatográficos que haya en la misma agrupación, se

van a realizar varios pasos:

- Filtrado paso baja del perfil cromatográfico.

Este paso es fundamental ya que los picos cromatográficos se ven

afectados por ruido. Realizando el filtrado, la delimitación del pico será mucho

más precisa, ya que no delimitaremos un pico antes de tiempo únicamente por

tener algún salto brusco o ilógico en alguna de sus colas cromatográficas.

Para filtrar paso bajo se ha usado una ventana de Hamming de 5 muestras

(equivalentemente 5 segundos), con la que se realiza un filtrado de fase cero

en ambas direcciones para obtener resultados más suavizados y sin introducir

retardo de grupo. Si se usase una ventana mayor, el filtrado sería demasiado

fuerte y el pico se suavizaría demasiado, por lo que hay que elegir un valor de

ventana ni muy grande (para que no se “destruyan” picos) ni muy chico (para

que se realice un filtrado suficiente).

- Detecto máximos y mínimos locales.

La búsqueda de máximos y mínimos locales se realiza con una ventana

temporal de anchura pequeña, de forma que se localizan los máximos del

cromatograma (máximos de cada pico cromatográfico) y se delimitan con los

mínimos locales encontrados (mínimos a los lados de los picos

cromatográficos).

780 800 820 840 860 880 900 920 940 960

0

0.5

1

1.5

2

x 105

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (377.100 +- 0.2500) Da

Page 99: Desarrollo de técnicas de clustering en datos de ...

83

En la figura 69 se observa la misma agrupación de entradas que aparece en la

figura 68, indicando en cada color los picos cromatográficos delimitados (excepto el

color azul que se corresponde con las entradas dibujadas por el cromatograma de ion

extraído). Por lo tanto, en la figura se observa la correcta separación de los tres picos

cromatográficos (colores amarillo, negro y violeta), incluso cuando hay coelución entre

los dos primeros.

Figura 69. Delimitación de picos cromatográficos para una agrupación de entradas.

Hay que tener en cuenta que la formación de agrupaciones de entradas se ha

hecho únicamente con las entradas que están por encima del umbral, pero la

delimitación se ha de realizar siempre para todas las entradas que superen un umbral

mínimo de intensidad (120 cuentas en el caso de las muestras complejas), para que

no falten entradas a la hora de delimitar el pico cromatográfico.

3.1.2. Segundo paso. Detección de ion principal de cada compuesto. Tras el paso anterior del método, las agrupaciones de entradas se habrán

separado en picos cromatográficos de alta intensidad, como puede observarse en la figura 69. Sin embargo, no se puede decir que cada pico cromatográfico separado corresponda a la especie iónica principal de cada compuesto, ya que habrá compuestos que, por ser muy abundantes, tengan muchos picos cromatográficos de alta intensidad detectados (fragmentos, clusters, variantes isotópicas, etc.), y otros compuestos que, por la razón contraria, tendrán pocos picos cromatográficos detectados (como mínimo han de tener uno para que el método detecte y caracterice el compuesto).

Para identificar al ion principal de cada compuesto (o pico cromatográfico

principal del compuesto) se compararán entre sí todos los picos cromatográficos de alta intensidad encontrados, para determinar cuáles pertenecen a la misma huella

850 860 870 880 890 900

0

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2

x 105

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (377.100 +- 0.2500) Da

Page 100: Desarrollo de técnicas de clustering en datos de ...

84

espectrométrica (mismo compuesto) y cuáles forman otra huella espectrométrica (otro compuesto detectado).

La comparación entre picos cromatográficos requiere la definición de una distancia entre ellos, que ha de cumplir una serie de condiciones:

- La primera condición es que los picos cromatográficos asociados al mismo compuesto han de tener su máximo de intensidad en el mismo instante temporal, aunque habrá que usar umbrales ya que algunos picos estarán más afectados por el ruido estadístico y pueden tener el máximo desplazado unos segundos.

- La segunda condición será que los picos han de tener la misma forma

cromatográfica, ya que como se ha explicado a lo largo de todo el trabajo, sus formas cromatográficas han de ser iguales ya que sólo dependen del proceso de cromatografía y del compuesto del que provienen.

Por lo tanto, de forma idílica, para asociar dos picos cromatográficos al mismo

compuesto, su forma cromatográfica ha de ser la misma (normalizando la intensidad) en los mismos tiempos de retención.

La distancia se va a implementar, para cumplir las condiciones anteriores, por

proyección de funciones. Cada forma cromatográfica la vamos a considerar un vector de valores dados por su intensidad para cada tiempo de retención, donde la dimensión del vector será todo el rango de tiempos de retención (en la práctica no se harán vectores tan grandes para aumentar la eficiencia). Por lo tanto, si consideramos que los picos cromatográficos son vectores y realizamos una proyección de uno sobre otro, cuanto mayor sea la magnitud, más parecidos serán los vectores y, por tanto, los picos cromatográficos. Esta magnitud tendrá que ser normalizada para normalizar las intensidades, por lo que realmente lo que será calcular el coseno del ángulo que forman los dos vectores, que será de 90º (coseno nulo) si los picos cromatográficos no se parecen en absoluto y 0º (coseno máximo) si los picos cromatográficos son idénticos (tras normalizar).

Por lo tanto, en la siguiente ecuación se puede observar la fórmula de la

distancia entre picos cromatográficos que se usará en el trabajo, que es realmente la fórmula del coseno del ángulo que forman dos vectores:

( )

, donde el numerador es el producto escalar entre ambos vectores, el denominador el

producto de las normas de ambos vectores y los vectores “x” e “y” representan las

señales cromatográficas (picos cromatográficos).

Por lo tanto, la similitud entre las agrupaciones irá desde 0 (ninguna similitud),

ya que el coseno del ángulo no será negativo por no haber intensidades negativas,

hasta 1 (forma cromatográfica igual provoca magnitud máxima de la proyección).

En la práctica, debido al ruido que afecta a los picos cromatográficos, habrá

que establecer umbrales de distancia (o similitud) entre picos cromatográficos, para

decidir si se corresponden (supera el umbral de distancia), o no (no alcanza el umbral

de distancia), con el mismo compuesto. Aunque aquí no se indicarán los umbrales

utilizados, ya que dichos umbrales se han cogido de forma experimental, hay que

Page 101: Desarrollo de técnicas de clustering en datos de ...

85

tener en cuenta que un umbral demasiado bajo puede hacer que varios compuestos

con sus huellas espectrométricas mezcladas, se asignen a la misma huella

espectrométrica (por ser tener siempre una distancia entre picos cromatográficos que

supera el umbral), mientras que un umbral de distancia demasiado alto, hará que cada

pico cromatográfico forme su propia huella espectrométrica (ya que ningún pico sea lo

suficientemente parecido para superar el umbral). Por lo tanto, habrá que establecer

soluciones de compromiso entre la probabilidad de que se creen compuestos que no

están (umbral demasiado alto) y que varios compuestos se asignen a la misma huella

espectrométrica (umbral demasiado bajo).

En la figura 65 se observaban las agrupaciones de entradas realizadas en un

primer momento para la muestra 15 de la colección de matrices de estándares. Una

vez realizado todo el proceso de separación de picos cromatográficos y comparación

de los picos entre sí, en la figura 70 se observan las entradas de los picos

cromatográficos que se han considerado los principales de su huella espectrométrica

(es decir, los más representativos de cada compuesto). Como se puede observar, se

encuentran 7 compuestos distintos, lo que en esta muestra significa que se ha

realizado el proceso de forma correcta.

Figura 70. Picos cromatográficos principales de los 7 compuestos detectados de la muestra.

Una vía interesante de mejora de esta comparación es que, como los picos

cromatográficos más abundantes se ven menos afectados por el ruido, su similitud

debería ser mayor en caso de que pertenezcan al mismo compuesto, por lo que sería

interesante desarrollar un algoritmo que establezca el umbral de similitud adecuado

para cada pareja de picos cromatográficos. Esto se comentará en el apartado de

líneas futuras del trabajo.

Tiempo(s)

Masa ion (

Da)

Espectrograma de baja resolucion (1 Da)

350 400 450 500 550 600 650 700 750 800 85050

100

150

200

250

300

350

400

450

500

1

1.5

2

2.5

3

3.5

4

4.5

5

Page 102: Desarrollo de técnicas de clustering en datos de ...

86

3.1.3. Tercer paso. Búsqueda de iones secundarios para cada ion principal. Llegados a este punto, tendremos una lista de picos cromatográficos

principales (ion principal) de cada compuesto, y una lista de picos cromatográficos de

alta intensidad asociados a la huella espectrométrica de cada compuesto detectado

(representado por los picos cromatográficos principales). Lo que se va a realizar en

este apartado será la caracterización de cada compuesto, completando su huella

espectrométrica con sus especies iónicas.

Para cada ion principal (pico cromatográfico principal) se buscan, con un

umbral de intensidad bajo (por ejemplo, para la muestra simple se usa un umbral de

80 cuentas), agrupaciones de entradas con el mismo rango temporal que tiene el pico

cromatográfico principal. Cada agrupación de entradas (de un ion secundario) que

esté en su rango temporal tendrá un perfil cromatográfico, por lo que se calculará su

distancia con el perfil cromatográfico del ion principal. En caso de que la distancia sea

lo suficientemente pequeña (mucha similitud), entonces la agrupación de entradas del

ion secundario se asociarán al compuesto del ion principal, pasando a formar parte de

su huella espectrométrica. En la figura 71 se observa la huella espectrométrica

agrupada para el compuesto más abundante de la muestra 15 de matrices de

estándares, cuyos iones principales se observaron en la figura 70. Esta huella

espectrométrica ha sido formada por 43 especies iónicas, una es la especie iónica

principales (pico cromatográfico principal de este compuesto) y las otras 42 son

especies iónicas que se han asignado a esta huella espectrométrica por similitud de

sus perfiles cromatográficos con el de la especie iónica principal del compuesto.

Figura 71. Huella espectrométrica detectada para un compuesto de la muestra.

Tiempo(s)

Masa ion (

Da)

Espectrograma de baja resolucion (1 Da)

680 700 720 740 760 780

100

200

300

400

500

600

700

800

900

1

1.5

2

2.5

3

3.5

4

4.5

5

Page 103: Desarrollo de técnicas de clustering en datos de ...

87

Al igual que ocurría antes, los umbrales de similitud que hay que utilizar deben

depender de la intensidad, ya que las especies iónicas menos abundantes se verán

más afectadas por el ruido y, por tanto, la similitud de su perfil cromatográfico con el

del ion principal del compuesto será menor.

3.1.4. Cuarto paso. Cálculo de características de las especies iónicas asociadas a cada compuesto. Para el pico cromatográfico de cada especie iónica detectada y asociada a

cada compuesto detectado, se calculará su área cromatográfica, que es la forma de

cuantificar la abundancia iónica de un compuesto en una muestra, lo que dará idea

más delante de qué concentración de compuesto había en la muestra (aunque esto

requiere estudios que no se realizan en este trabajo). Actualmente hay muchas formas

de calcular el área cromatográfica de una agrupación, como por ejemplo:

Sumar las intensidades de cada entrada de la agrupación, sin preocuparnos

de la forma del pico cromatográfico en absoluto.

Sumar las intensidades igual que en la posibilidad anterior, pero restando

un factor de corrección que se conoce como “línea base” y que consiste en

restar, al área total, el área que hay por debajo de los mínimos de la

agrupación a ambos lados del tiempo central.

Sumar las intensidades que estén por encima de un porcentaje de la

intensidad del máximo de la agrupación.

Esta solución es la que se implementará, calculando el área

cromatográfica como la suma de las intensidades que estén por encima del

80% de la intensidad máxima del pico. Para tener más solidez estadística,

el porcentaje de intensidad no se hará sobre el máximo absoluto de la

agrupación, sino que se cogerá sobre su valor filtrado con sus entradas

anterior y posterior (un segundo más y un segundo menos).

La ecuación para el cálculo del área sería simplemente la suma de las

intensidades de las entradas que cumplan la condición de umbral:

, donde sería la intensidad de cada entrada que esté por encima del 80%

de la intensidad pesada del pico.

También se calculará el valor esperado de la relación masa/carga de los

valores de masa de la especie iónica, así como el valor esperado del tiempo de

retención. De esta forma se tendrán dos valores muy sólidos estadísticamente que nos

permitirán tener una idea más precisa de en qué masa/carga y en qué tiempo de

retención está centrada la agrupación.

El valor esperado de la relación masa/carga se calcula como sigue:

Page 104: Desarrollo de técnicas de clustering en datos de ...

88

∑ ∑

El valor esperado del tiempo de retención se calcula también usando la

intensidad de cada entrada como peso del tiempo de esa entrada. Es decir, sería la

misma ecuación que se usa para el valor esperado de la masa/carga, pero cambiando

las masas por los tiempos de retención:

∑ ∑

Otro parámetro a calcular será, para los iones principales de cada compuesto,

la desviación estándar de tiempo de retención y de masa. Sin embargo, para tener

más solidez estadística y que no influyan demasiado aquellos valores con gran

varianza estadística (es decir, los de baja intensidad), el cálculo será también pesado

(valor esperado) en función de la intensidad de cada entrada.

La desviación estándar de tiempo de retención será:

√∑ ( )

, donde es el valor esperado del tiempo de retención que se calculó anteriormente.

La desviación estándar de la relación masa/carga será:

√∑ ( )

, donde es el valor esperado de la relación masa/carga que se calculó

anteriormente.

Cabe destacar que, como se ha dicho, la abundancia iónica de un compuesto

se observa en el área cromatográfica. Sin embargo, para el área de las especies

iónicas secundarias de un compuesto lo interesante no es el valor del área en sí, sino

el valor del área relativa al área de su especie iónica principal, por lo que será el valor

que se muestre para las especies iónicas secundarias.

3.1.5. Quinto paso. Almacenar y mostrar resultados en forma de tablas. Una vez que se han calculado los valores de las especies iónicas, se van a

guardar en forma de tablas muy compactas que permitan observar rápidamente los

compuestos que hay en una muestra y, si se desea, ver las especies iónicas

secundarias asociadas a cada compuesto.

Los resultados se almacenarán en dos tablas distintas; una contendrá las

características de los iones principales de cada muestra, y la otra las características

básicas de los iones secundarios de un ion principal. Por lo tanto, tendremos una tabla

Page 105: Desarrollo de técnicas de clustering en datos de ...

89

con N agrupaciones principales descritas en ella, y N tablas describiendo las

agrupaciones secundarias de cada una de las N agrupaciones principales.

La tabla que describe las agrupaciones principales nos dará realmente una

idea de qué hay en la muestra, mientras que la otra nos dará una idea de la huella

espectrométrica de cada compuesto de la muestra.

La tabla de las agrupaciones principales tendrá la siguiente información para

cada agrupación principal:

Valor esperado del tiempo de retención.

Valor esperado de la relación masa/carga.

Desviación estándar del tiempo de retención.

Desviación estándar de la relación masa/carga.

Área cromatográfica.

Número de líneas secundarias asociadas a la huella espectrométrica del

compuesto.

La tabla de agrupaciones secundarias será mucho más sencilla, ya que lo que

interesa es su abundancia respecto de su agrupación principal, y la masa en la que

estén. Las características que aparecen en ella son las siguientes:

Valor esperado de la relación masa/carga.

Área cromatográfica relativa al área cromatográfica de la especie iónica

más abundante del compuesto (la que consideramos especie iónica

principal).

Page 106: Desarrollo de técnicas de clustering en datos de ...

90

3.2. Método de identificación y eliminación de artefactos químicos.

Para poder detectar y eliminar los artefactos químicos, en primer lugar se han

analizado sus características para intentar encontrar alguna propiedad que tengan todos ellos en común pero que no se cumpla para los compuestos de interés de la muestra, de forma que se puedan distinguir del resto de compuestos según esa propiedad.

En primer lugar vamos a observar algunos artefactos químicos que se

observan en la muestra simple (mezcla de estándares). En la figura 72 se observa el espectrograma de alta resolución (10 mDa) centrado en la masa 206,973 Da, que es la que tiene el artefacto químico observado. Como se puede observar, la intensidad (que aquí se ha representado en escala logarítmica de base 10) se mantiene prácticamente constante durante todo el tiempo de análisis (de 300 a 841 segundos), y las masas no varían mucho más de 10 mDa entre sí, lo que es lógico ya que una intensidad grande hace que las masas tengan poca dispersión si se trata del mismo ion.

Figura 72. Espectrograma de alta resolución (10 mDa) centrado en la masa 206,973 Da.

Representando su cromatograma de ion extraído en la figura 73, se puede

observar que la intensidad se mantiene prácticamente constante durante todo el análisis, excepto en algunos momentos donde se producen picos de intensidad mínima (al contrario de lo que se ha visto siempre en los compuestos) que son debidos a la supresión iónica.

Tiempo(s)

Masa ion (

Da)

Espectrograma de alta resolucion (10 mDa) centrado en 2.069729e+02 +- 0.03 Da

350 400 450 500 550 600 650 700 750 800

206.95

206.96

206.97

206.98

206.99

207

1.5

2

2.5

3

3.5

Page 107: Desarrollo de técnicas de clustering en datos de ...

91

Figura 73. Cromatograma de ion extraído centrado en la masa 206,973 Da.

En la figura 74 está representado el espectrograma de la masa 185,027 Da, con la intensidad en escala logarítmica. En este caso vemos una situación un poco diferente, ya que la intensidad no se mantiene tan uniforme durante todo el análisis, sino que cada vez tenemos más corriente iónica conforme avanza el tiempo de retención. Esto lo observamos mejor en el cromatograma de ion extraído, que se puede ver en la figura 75. En este caso no observamos la presencia evidente de sustracción iónica. Sin embargo, ver la diferencia entre ambos artefactos nos permite descartar la idea de que la intensidad vaya a mantenerse prácticamente igual durante todo el experimento, ya que vemos que no tiene por qué ser así (ya que depende de la fase móvil o estacionaria de la columna cromatográfica, como se explicó anteriormente).

Figura 74. Espectrograma de alta resolución (10 mDa) centrado en la masa 185,027 Da.

300 400 500 600 700 800 9002.2

2.4

2.6

2.8

3

3.2

3.4

3.6

3.8

Tiempo (s)

Inte

nsid

ad e

n e

scala

logarí

tmic

a b

ase 1

0

Cromatograma de ion extraído en el rango de masas (206.973 +- 0.0125) Da

Tiempo(s)

Masa ion (

Da)

Espectrograma de alta resolucion (10 mDa) centrado en 1.850270e+02 +- 0.03 Da

350 400 450 500 550 600 650 700 750 800

185

185.01

185.02

185.03

185.04

185.05

1

1.5

2

2.5

3

3.5

Page 108: Desarrollo de técnicas de clustering en datos de ...

92

Figura 75. Cromatograma de ion extraído centrado en la masa 185,027 Da.

Viendo estos artefactos (y otros que presentan una forma muy parecida a estos pero que no se han introducido aquí porque sería demasiado redundante) hay algo que sí tienen en común, y es que presentan una intensidad bastante grande (generalmente superior a las 500 muestras) durante todo el tiempo de retención del análisis, y prácticamente tienen una entrada con intensidad alta en la masa de su ion y para cada tiempo de retención. Por lo tanto, una primera condición para identificar un posible artefacto químico, es que los artefactos tendrán entradas de alta intensidad en prácticamente todos los tiempos de retención. En los compuestos interesantes (entiéndase los que no son artefactos) que tienen entradas de alta intensidad en todos los tiempos de retención de una masa, sus picos cromatográficos de intensidad siempre son muy grandes en comparación con el fondo de ruido que se puede observar en su cromatograma de ion extraído. Por lo tanto, la detección de los artefactos químicos pasará por ver cómo se distribuyen sus intensidades (histograma), ya que los compuestos interesantes van a tener siempre un gran número de intensidades en su fondo de ruido, y muchas menos intensidades que lleguen hasta una altura muy grande, mientras que los artefactos químicos van a tener un rango mucho menor de intensidades, y sus entradas estarán repartidas uniformemente entre las intensidades. Por lo tanto, lo que interesará será observar el histograma de las intensidades para distinguir los artefactos químicos de los compuestos de interés.

En primer lugar vamos a observar el histograma de varios iones principales, de las muestras de aceite y de las muestras de matrices de estándares.

Masa/carga 377,129 daltons de la muestra 1 de aceites. En la figura 76 mostramos su cromatograma de ion extraído para que se vea que es un ion de interés y en la figura 77 representamos su histograma, para observa la distribución que presenta. Como deja patente el histograma de la figura 77, la mayoría de las entradas tienen intensidades muy pequeñas, y la presencia de picos muy grandes hacen que el rango de intensidades sea significativamente extenso y apenas observemos entradas a partir de la mitad de dicho rango de intensidad.

300 400 500 600 700 800 9002.2

2.4

2.6

2.8

3

3.2

3.4

3.6

3.8

4

Tiempo (s)

Inte

nsid

ad e

n e

scala

logarí

tmic

a b

ase 1

0

Cromatograma de ion extraído en el rango de masas (185.027 +- 0.0250) Da

Page 109: Desarrollo de técnicas de clustering en datos de ...

93

Figura 76. Cromatograma de ion extraído centrado en la masa 377,129 Da.

Figura 77. Histograma de las intensidades alrededor de la masa 377,129 Da.

Masa/carga 213,1 daltons de la muestra 1 de aceites. En la figura 78 se observa su cromatograma de ion extraído, que muestra que hay varios picos cromatográficos interesantes. En la figura 79 se observa su histograma de intensidades, donde una vez más se observa que la gran mayoría de las entradas tiene una intensidad pequeña, y que el rango de intensidades es muy grande ya que va desde intensidades pequeñas hasta intensidades muy grandes.

200 400 600 800 1000 1200 1400 16000

1

2

3

4

5

6

7x 10

5

Tiempo (s)

inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (377.129 +- 0.1250) Da

0 1 2 3 4 5 6 7

x 105

0

10

20

30

40

50

60Histograma

Intensidad

Núm

ero

de e

ntr

adas

Page 110: Desarrollo de técnicas de clustering en datos de ...

94

Figura 78. Cromatograma de ion extraído centrado en la masa 213,1 Da.

Figura 79. Histograma de intensidades para entradas alrededor de la masa 213,1 Da.

Masa/carga 463,089 daltons de la muestra 15 de matrices de estándares. En la figura 80 se observa el cromatograma de ion extraído, mucho más sencillo que los antes vistos ya que únicamente tiene dos picos cromatográficos. La figura 81 se representa el histograma de sus intensidades.

200 400 600 800 1000 1200 1400 16000

1

2

3

4

5

6x 10

4

Tiempo (s)

inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (213.100 +- 0.1250) Da

0 1 2 3 4 5 6

x 104

0

10

20

30

40

50

60

70Histograma

Intensidad

Núm

ero

de e

ntr

adas

Page 111: Desarrollo de técnicas de clustering en datos de ...

95

Figura 80. Cromatograma de ion extraído centrado en la masa 463,089 Da.

Figura 81. Histograma de intensidades para entradas alrededor de la masa 463,089 Da.

Observando podemos concluir que los iones (relaciones masa/carga) que tengan compuestos interesantes, tendrán un histograma con un rango de intensidades muy grande, y la mayoría de sus entradas están en la zona de intensidades bajas. Además, algo que será de utilidad es filtrar paso baja primero la forma cromatográfica del ion, y después representar el histograma de la intensidad en escala logarítmica, lo que permitirá definir un criterio para las diferencias entre los histogramas. Por ejemplo, para el histograma anterior, su representación con la intensidad en escala logarítmica se puede observar en la figura 82, donde queda patente que la gran parte de las entradas de intensidad están en la mitad inferior del rango de intensidades.

300 400 500 600 700 800 9000

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2x 10

5

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (463.089 +- 0.1250) Da

0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2

x 105

0

5

10

15

20

25

30Histograma

Intensidad

Núm

ero

de e

ntr

adas

Page 112: Desarrollo de técnicas de clustering en datos de ...

96

Figura 82. Histograma de intensidades en escala logarítmica para entradas alrededor de la masa

463,089 Da.

A continuación vamos a observar varios histogramas de compuestos continuos.

Masa/carga 206,973 daltons de la muestra de matrices de estándares. El cromatograma de ion extraído se mostró en la figura 73 y cabe destacar que era prácticamente continuo pero presentaba mucha supresión iónica. Si obtenemos el histograma con la intensidad en escala logarítmica, que se ha representado en la figura 83, observamos que el rango de intensidades es menor ya que empieza a una intensidad mínima mayor y acaba a una intensidad máxima menos (que los valores observados, por ejemplo, en la figura 82), y que la gran mayoría de entradas están repartidas en el rango de las intensidades altas.

Figura 83. Histograma de intensidades para entradas alrededor de la masa 206,976 Da.

1.5 2 2.5 3 3.5 4 4.5 5 5.50

0.5

1

1.5

2

2.5

3Histograma

Intensidad en escala logarítmica

Núm

ero

de e

ntr

adas

2.2 2.4 2.6 2.8 3 3.2 3.4 3.6 3.80

1

2

3

4

5

6

7

8

9Histograma

Intensidad en escala logarítmica

Núm

ero

de e

ntr

adas

Page 113: Desarrollo de técnicas de clustering en datos de ...

97

Masa/carga 185,027 daltons de la muestra de matrices de estándares. El cromatograma de ion extraído se mostró en la figura 75. Si representamos el histograma con la intensidad en escala logarítmica, como puede observarse en la figura 84, observamos que en este caso se obtiene una distribución bastante homogénea de las intensidades para las entradas de este ion, lo que es inherente a cualquier artefacto que salga de forma continua. Además, vemos que tiene más entradas a alta intensidad que a baja intensidad, lo que parece ser típico en los artefactos químicos por lo que se ha observado en todas las figuras representadas.

Figura 84. Histograma de intensidades para entradas alrededor de la masa 185,027 Da.

Una vez observados los cromatogramas de los compuestos interesantes y de los artefactos químicos, podemos establecer una serie de condiciones para decidir si en una masa/carga está saliendo un artefacto químico. Las dos condiciones siguientes, cuando ambas se cumplan, identificarán la presencia de un artefacto químico en una relación masa/carga, lo que permitirá eliminarla a continuación para obtener mejores resultados en el método de detección y caracterización de compuestos de una muestra, además de tener un volumen de datos a procesar menor.

El ion (masa/carga con una pequeña variación) tendrá una entrada de valor de intensidad alto para la mayoría de tiempos de retención. En la práctica se ha establecido que, al menos, el 85% de los tiempos de retención han de ser superiores a una intensidad umbral, que se ha cogido de 500 cuentas en ambas colecciones de muestras, ya que es una intensidad bastante grande como para que se considere como un artefacto químico.

El histograma de las intensidades en base logarítmica (previo filtrado paso baja para evitar cambios bruscos) tendrá la mayoría de sus entradas en la parte alta del rango de intensidades. En la implementación se ha dicho que ha de tener más entradas desde el 40% del rango de intensidad, hasta el final del rango de intensidad.

Este método se ha comprobado en muestras de ambas colecciones y sus

resultados (que son altamente satisfactorios) se mostrarán en el apartado de los resultados.

2.2 2.4 2.6 2.8 3 3.2 3.4 3.6 3.8 40

1

2

3

4

5

6

7

8

9Histograma

Intensidad en escala logarítmica

Núm

ero

de e

ntr

adas

Page 114: Desarrollo de técnicas de clustering en datos de ...

98

3.3. Método de agrupación de compuestos de una colección de muestras.

Una vez implementada la herramienta de detección y caracterización de

compuestos en una muestra y el método de identificación y supresión de artefactos químicos, se va a desarrollar un método para la agrupación de compuestos de una colección entera (no sólo de una muestra). Este método es interesante ya que la mayoría de los estudios se realizan sobre una colección de muestras, no sobre una muestra particular, por lo que es interesante tener el resultado conjunto para toda la colección.

La idea de este método es detectar y caracterizar los compuestos de cada una

de las muestras (utilizando el método desarrollado en este trabajo con ese objetivo), para luego comparar los compuestos de las distintas muestras entre sí para ver cuáles son iguales (mismo compuesto en distintas muestras) y cuáles son particulares de una muestra (únicamente detectados en una muestra).

La comparación entre compuestos no se puede hacer únicamente en función

de la masa/carga y el tiempo de retención de su ion principal, ya que no tiene por qué ser el mismo ion, el más abundante en todas las muestras. Por lo tanto, dado que los compuestos han de tener, si las condiciones de ionización son las mismas y la abundancia iónica en las distintas muestras también la misma, la misma huella espectrométrica (sin tener en cuenta ruidos, supresiones iónicas y efectos no lineales). Por lo tanto, dado que la huella espectrométrica más pequeña (con menos líneas) será la del compuesto en la muestra menos abundante (porque será más probable que sus líneas estén por debajo del umbral de detección del método), lo que se va a hacer es establecer una distancia entre huellas espectrométricas. Esta distancia será, en la práctica, el número de líneas espectrométricas que sean iguales (aproximadamente mismo tiempo de retención y misma relación masa/carga) en ambas huellas espectrométricas. Además, para dar más solidez aún a la equivalencia entre compuestos, también han de ser parecidas las áreas relativas de las líneas espectrométricas con el área del ion principal, de forma que también se usará esa información para establecer la distancia entre dos compuestos. El método implementado con este fin partirá de las tablas resultantes de la aplicación del método principal para cada muestra, y buscará compuestos iguales entre las tablas, decidiendo si son los mismos compuestos si la distancia entre ellos es lo suficientemente pequeña. La condición para que dos compuestos se consideren el mismo, es la siguiente:

- Tengan un número suficiente de líneas espectrométricas iguales. Dos líneas espectrométricas se considerarán iguales si sus tiempos de

retención se diferencian menos de un umbral y si la diferencia entre sus relaciones masa/carga también es menor que un umbral. El umbral de masa/carga debería depender realmente de la abundancia iónica de cada línea espectrométrica, ya que las líneas de menor intensidad se verán afectadas en mayor medida por el ruido estadístico, lo que hará fluctuar más su valor esperado de relación masa/carga.

Además, se tendrá que cumplir que las áreas relativas de las líneas

espectrométricas sean también parecidas, aunque este criterio ha de ser mucho más flexible en la implementación ya que las áreas cromatográficas se han calculado de una forma que puede dar variaciones significativas. Por lo tanto, este método podrá ser más o menos restrictivo según si el método

Page 115: Desarrollo de técnicas de clustering en datos de ...

99

de detección y caracterización de compuestos es más o menos preciso, y mejorará con cualquier mejora realizada sobre el método principal.

En la práctica, si de las 5 líneas más abundantes, 3 eran iguales (según

el criterio anterior), entonces los dos compuestos se han considerado el mismo.

De cada dos compuestos que compare y detecte que son iguales, me quedaré con el que sea más abundante en su muestra (mayor área cromatográfica) ya que será el que tenga una huella espectrométrica más completa y unos valores esperados más precisos. Sin embargo, cuando compare un compuesto con todos los que he encontrado en la colección, y no sea equivalente a ninguno de ellos, entonces el compuesto será un nuevo compuesto de la colección. Para completar los resultados de este método, también se indicarán en qué muestra se ha visto cada compuesto y con qué abundancia iónica (área), lo que facilitará mucho cualquier estudio químico (o simplemente estadístico) sobre la colección de muestras.

Page 116: Desarrollo de técnicas de clustering en datos de ...

100

4. Resultados y comprobación.

En este apartado se mostrarán y comprobarán los resultados obtenidos para cada uno de los métodos en las colecciones de muestras, comparándolos con los resultados obtenidos mediante un análisis manual y discutiendo la comparación. Sin embargo, dado que el volumen de resultados es muy grande, únicamente se van a poner los más significativos o relevantes y se dejarán otros en el apéndice, para que el lector pueda analizar con detalle los resultados que desee.

4.1. Identificación de artefactos químicos en ambas colecciones.

Muestra de la colección de matrices de estándares.

Aplicando el método implementado para identificar artefactos químicos en la muestra 15 de la colección de matrices de estándares, se han obtenido cuatro valores de masa en los que hay un artefacto químico: 174,9560, 185,0279, 206,9729 y 304,9132 Da. A continuación se verán los cromatogramas de ion extraído para cada una de estas masas, comprobando así si efectivamente son artefactos químicos (el método ha funcionado).

Los valores 185,028 Da y 206.973 Da coinciden con los que evaluamos antes

(figuras 75 y 73, respectivamente), lo que es lógico ya que el método se diseñó, en parte, en base a ellos.

En la figura 85 podemos a observar el espectrograma de ion extraído alrededor

de la masa 174,956 Da, donde se observa que, efectivamente, en esta masa/carga sale un artefacto químico, por lo que el método ha funcionado correctamente al identificarlo.

Figura 85. Cromatograma de ion extraído centrado en la masa 174,956 Da.

300 400 500 600 700 800 9000

500

1000

1500

2000

2500

3000

Tiempo (s)

inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (174.956 +- 0.1250) Da

Page 117: Desarrollo de técnicas de clustering en datos de ...

101

Observando en la figura 86 el cromatograma de ion extraído centrado en la masa/carga 304,913 Da, se observa que también es una masa en la que sale un artefacto químico.

Figura 86. Cromatograma de ion extraído centrado en la masa 304,913 Da.

Según estos resultados, el método ha identificado 4 artefactos químicos en la muestra 15 de la colección de matrices de estándares, estando los 4 correctamente identificados.

Muestra de la colección de extractos fenólicos de aceites de oliva.

Una vez hemos probado el método con la muestra de la colección de matrices de estándares, vamos a usar el método en la muestra 1 de la colección de extractos fenólicos de aceites de oliva para ver en qué masas indica la presencia de artefactos químicos.

Masa/carga (Da) de iones identificados como artefactos químicos en la muestra analizada

59,012 89,023 96,962 116,931 128,037 188,956

157,018 173,015 174,994 186,993 194,929 201,028

202,028 203,018 217,005 218,009 218,923 221,024

223,024 232,038 232,991 240,971 242,969 247,016

255,234 263,037 291,991 359,018 374,994

Tabla 8. Artefactos químicos detectados en la muestra 1 de la colección de aceites.

Las masas en las que el método ha determinado que salen artefactos químicos, son las que aparecen en la tabla 8. En este caso se han detectado muchos más artefactos químicos que antes (en total 29 artefactos frente a los 4 anteriores), lo que es lógico ya que es una muestra más compleja. Sin embargo, para asegurarnos de que el método no ha seleccionado por error compuestos interesantes, vamos a comprobar cada uno de ellos. En la figura 87 se puede observar uno de ellos, correspondiente a la masa 59,012 Da y se observa perfectamente que es un artefacto químico, de mucha intensidad además (una media de 4.500 cuentas).

300 400 500 600 700 800 9000

500

1000

1500

2000

2500

Tiempo (s)

inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (304.913 +- 0.1250) Da

Page 118: Desarrollo de técnicas de clustering en datos de ...

102

Figura 87. Cromatograma de ion extraído centrado en la masa 59,012 Da.

En la figura 88 se observa otra masa/carga detectada por el método, la de valor 174,994 Da. El cromatograma de ion extraído muestra que, para esta masa, la intensidad baja a lo largo de todo el análisis y, como en el caso anterior, las entradas de esta masa corresponden a un artefacto químico que se ha hecho bien en detectar.

Figura 88. Cromatograma de ion extraído centrado en la masa 174,994 Da.

Para no llenar este apartado de figuras muy parecidas, todos los cromatogramas de ion extraído de las masas detectadas por el método de identificación de artefactos químicos, se pueden consultar en el apéndice 2. Tras comprobar cada uno de los 29 cromatogramas de ion extraído para las masas detectadas como artefacto químico, se puede concluir en que todos corresponden a un artefacto químico, por lo que las 29 relaciones masa/carga son correctas.

200 400 600 800 1000 1200 1400 16002000

3000

4000

5000

6000

7000

8000

9000

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (59.012 +- 0.0250) Da

200 400 600 800 1000 1200 1400 16000

1000

2000

3000

4000

5000

6000

7000

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (174.994 +- 0.0250) Da

Page 119: Desarrollo de técnicas de clustering en datos de ...

103

Como conclusión, este método ha identificado y suprimido 4 artefactos químicos en una muestra de la colección de matrices de estándares, y 29 artefactos químicos en una muestra de la colección de extractos fenólicos de aceite de oliva. De los 33 artefactos químicos identificados en ambas muestras, el 100% son realmente artefactos químicos, por lo que el método ha dado unos resultados muy buenos.

La gran novedad de este método frente a otros implementados en este campo

es que detecta los artefactos químicos en un preprocesamiento de los datos (antes de obtener los resultados), cuando hasta el momento únicamente se había conseguido realizar esa identificación tras obtener los resultados, lo que hace que el volumen de datos a procesar sea mucho mayor.

Page 120: Desarrollo de técnicas de clustering en datos de ...

104

4.2. Aplicación del método de detección y caracterización de compuestos a una muestra simple sin eliminar artefactos químicos. En este apartado se va a realizar una primera prueba del método

implementado para la detección y caracterización de compuestos, para ver algunos resultados interesantes y observar la gran utilidad

La muestra con la que se va a realizar la prueba va a ser la número 15 de la

colección de muestras simples (matrices de estándares), ya que como vimos en la

descripción de esta colección, esta muestra tiene presentes los 5 compuestos

polifenólicos que se mezclaron en el laboratorio. En la figura 30 se observó su

espectrograma de baja resolución (1 Da), donde se podían ver 7 compuestos distintos

(los 5 mezclados y 2 contaminantes debidos a los anteriores).

Para la ejecución del método, el umbral alto de intensidad se sitúa en 2.000

cuentas (cualquier pico principal debería superarlas) y el umbral bajo de intensidad en

80 muestras.

A continuación mostramos los datos de interés:

La búsqueda de candidatos a iones principales (umbral alto) ha tardado

0,111 segundos, encontrando un total de 91 candidatos. Sus picos

cromatográficos se han delimitado en 0,179 segundos.

De los 91 candidatos a iones principales, se han distinguido 67 como iones

principales (compuestos distintos) y 24 como iones secundarias de otro

compuesto, tardando 0,131 segundos en comparar las agrupaciones.

La búsqueda de iones secundarios con poca abundancia y su asignación a

su ion principal ha tardado 1,552 segundos, encontrando 1.192 nuevas

agrupaciones secundarias (aparte de las 24 encontradas en un principio).

El cálculo de características de los picos cromatográficos de cada especie

iónica encontrada se ha hecho en 0,349 segundos.

En total, incluyendo lectura de fichero de datos, se ha tardado

aproximadamente 2,5 segundos, con un procesador de 4 núcleos a 2,5

GHz.

En estos resultados podemos decir que el método es muy rápido, pero en

absoluto podemos decir que tenga resultados lógicos, porque esta muestra tiene,

como se dijo anteriormente, 7 compuestos y nosotros hemos encontrado 67. Sin

embargo, en la tabla 9 se pueden observar los compuestos detectados ordenados por

área cromatográfica. Se han destacado en color verde aquellos compuestos que, por

su masa/carga, sabemos que el método de identificación de artefactos químicos los

detecta como artefactos químicos (apartado 4.1), por lo que todos esos compuestos

serán eliminados al aplicar dicho método, quedando finalmente los 7 compuestos que

deben detectarse y caracterizarse.

Compuesto Tiempo (s) Masa/carga (Da)

1 799,5 463,089

2 744,0 609,148

3 498,8 191,056

Page 121: Desarrollo de técnicas de clustering en datos de ...

105

4 373,5 595,133

5 634,9 179,035

6 354,7 206,973

7 615,7 206,972

8 599,2 191,056

9 412,2 463,088

10 586,9 206,972

11 755,6 206,974

12 680,4 206,973

13 452,5 206,973

14 422,2 206,973

15 788,1 206,974

16 538,7 185,026

17 363,1 174,956

18 690,6 185,028

19 833,0 185,028

20 748,4 185,028

21 822,0 185,028

22 708,6 185,028

23 724,1 185,028

24 759,9 185,028

25 778,7 185,029

26 735,3 185,028

27 735,3 185,028

28 806,4 185,028

29 775,5 185,029

30 793,4 185,029

31 811,9 185,028

32 772,4 185,029

33 668,3 185,028

34 646,1 185,028

35 656,0 185,028

36 675,0 185,028

37 829,4 206,973

38 583,5 185,027

39 560,3 185,027

40 631,4 185,028

41 571,1 185,028

42 601,7 185,028

43 305,7 206,974

44 550,2 206,972

45 617,3 185,027

46 523,4 206,971

47 436,6 206,973

48 472,2 206,971

Page 122: Desarrollo de técnicas de clustering en datos de ...

106

49 810,0 206,974

50 768,4 206,973

51 537,1 206,971

52 659,9 206,972

53 593,1 206,972

54 707,9 206,973

55 718,2 206,973

56 562,5 206,972

57 458,1 206,974

58 605,3 206,974

59 669,4 206,974

60 608,5 185,028

61 510,4 206,971

62 837,6 206,974

63 488,8 206,972

64 647,3 206,973

65 329,0 206,973

66 395,2 206,973

67 512,5 185,027

Tabla 9. Iones principales obtenidos con la aplicación del método a la muestra 15 de la colección de matrices. Se destacan en verde los iones correspondientes a artefactos químicos identificados.

Es evidente que, si no se hubiese implementado el método de identificación de

artefactos químicos, el resultado de la aplicación del método de detección de

compuestos sería correcto, ya que detecta los 7 compuestos de la muestra, pero

también detecta muchos compuestos falsos debidos a las fluctuaciones de alta

intensidad que hay en los artefactos químicos, que hacen que el método los pueda

confundir con compuestos de interés.

Una vez que se ha observado la utilidad tan grande del método de

identificación de artefactos químicos para obtener resultados más limpios y en menos

tiempo con el método de detección y caracterización de compuestos, se va a pasar a

observar la huella espectrométrica con la que ha caracterizado el método a cada

compuesto detectado. Debido al elevado número líneas espectrométricas de la huella

espectrométrica de cada compuesto, únicamente se analizará la huella de un

compuesto y el resto se dejarán en el apéndice 1 por si quieren consultarse sus datos

individualmente. El compuesto que se va a analizar es el más abundante de la

muestra (compuesto número 1 de la tabla 9), ya que es el que más agrupaciones

secundarias tiene. En la tabla 10 se muestra la masa/carga de la especie iónica

principal (línea espectrométrica principal, número 1 en la tabla) y las de las 44

especies iónicas asociadas al compuesto. Además, se muestra el área cromatográfica

relativa (área de la línea secundaria relativa al área de la línea principal).

Línea espectrométrica Masa/carga (Da) Área relativa

1 463,089 100,00

2 464,092 25,9

3 465,094 4,33

4 531,073 3,45

Page 123: Desarrollo de técnicas de clustering en datos de ...

107

5 300,026 2,07

6 563,013 1,29

7 547,042 1,13

8 301,034 1,13

9 533,059 0,94

10 593,045 0,87

11 521,043 0,84

12 548,052 0,82

13 553,046 0,78

14 615,029 0,67

15 562,007 0,66

16 466,097 0,57

17 928,19 0,51

18 599,052 0,50

19 532,073 0,40

20 384,988 0,37

21 579,06 0,37

22 565,007 0,36

23 583,033 0,36

24 523,044 0,34

25 564,02 0,33

26 575,099 0,33

27 616,029 0,33

28 621,052 0,30

29 646,973 0,28

30 927,183 0,26

31 601,046 0,24

32 630,997 0,24

33 617,025 0,23

34 585,011 0,22

35 467,099 0,21

36 605,013 0,21

37 534,061 0,20

38 549,049 0,18

39 517,012 0,17

40 551,053 0,15

41 667,043 0,15

42 671,106 0,15

43 561,047 0,10

44 302,037 0,09

45 522,051 0,02

Tabla 10. Líneas de la huella espectrométrica del compuesto 1 (el más abundante) de la tabla 9.

Para ver si realmente las líneas espectrométricas detectadas coinciden en forma cromatográfica con la línea espectrométrica principal, se pueden representar unas y otras en la misma figura. Sin embargo, al ser 45 figuras no se van a poner aquí todas, sino que se van a observar unas pocas para observar algunos detalles y comprobar que distancia utilizada es correcta.

En primer lugar, en la figura 89 observamos el pico cromatográfico del ion

Page 124: Desarrollo de técnicas de clustering en datos de ...

108

principal del compuesto 1 (tabla 9) junto con el pico cromatográfico asociado a una especie iónica detectada (que está en la masa/carga 464,09 Da, por lo que es una variante isotópica del ion principal). En la figura 89 se puede observar que ambas formas cromatográficas (con la intensidad en escala logarítmica) son prácticamente iguales salvo un factor de escala, lo que hace que la distancia entre ellas sea muy pequeña (similitud muy elevada, del 99,7%). En este caso las formas cromatográficas son prácticamente iguales dado que la alta intensidad de sus entradas hace que sus picos se vean poco afectados por el ruido estadístico.

Figura 89. Formas cromatográficas de iones principal y secundario con intensidad en escala

logarítmica.

Siguiendo con la misma huella espectrométrica, podemos observar también algunas agrupaciones de mucha menor intensidad, pero que siguen manteniendo la forma cromatográfica de la agrupación principal, lo que les aporta una alta similitud. Un ejemplo de esta situación se observa en la figura 90, donde se mantiene una similitud alta a pesar de que el pico cromatográfico secundario se ve bastante más afectado por el ruido estadístico que el de la figura 89.

Figura 90. Formas cromatográficas de iones principal y secundario con intensidad en escala

logarítmica.

Sin embargo, aquí es donde observamos problemas en esta búsqueda, ya que mientras que las líneas secundarias de moderada intensidad están bien formadas y

780 785 790 795 800 805 810 815 820 825 8302

2.5

3

3.5

4

4.5

5

5.5Agrupaciones secundaria y principal

Tiempo (s)

Inte

nsid

ad e

n e

scala

logarí

tmic

a

Principal con:

Tiempo: 799.5

Masa pesada: 463.089

Secundaria con:

Similitud al 99.7

Masa pesada de 464.092

780 785 790 795 800 805 810 815 820 825 8302

2.5

3

3.5

4

4.5

5

5.5Agrupaciones secundaria y principal

Tiempo (s)

Inte

nsid

ad e

n e

scala

logarí

tmic

a

Principal con:

Tiempo: 799.5

Masa pesada: 463.089

Secundaria con:

Similitud al 98.4

Masa pesada de 300.026

Page 125: Desarrollo de técnicas de clustering en datos de ...

109

tienen un coeficiente de similitud generalmente superior al 97%, las agrupaciones de baja intensidad (entiéndase 400 cuentas, por ejemplo), no tienen bien formada la forma cromatográfica del pico, y usualmente les faltan algunas entradas por el motivo que sea (sustracción iónica, dispersión elevada, ruido estadístico, etc.), lo que hace muy difícil establecer un umbral de similitud. Conforme baja la abundancia del pico cromatográfico de la línea espectrométrica, aparecen algunos picos que, aunque sigue siendo evidente que se corresponden con el compuesto por su forma cromatográfica, ésta se presenta bastante afectada por el ruido. Un ejemplo de este tipo de picos se puede observar en la figura 91.

Figura 91. . Formas cromatográficas de iones principal y secundario con intensidad en escala

logarítmica.

Tras observar la comparación entre las formas cromatográficas de las especies iónicas principal y secundaria asociadas al mismo compuesto, se puede concluir en que el umbral de similitud será un valor muy complicado de establecer, ya que deberá incluir el mayor número de líneas espectrométricas en la huella espectrométrica del compuesto, sin incluir ninguna que corresponda a ruido o a la huella espectrométrica de otro compuesto. También se concluirá en que la correlación de formas cromatográficas es una forma adecuada para asociar especies iónicas del mismo compuesto entre sí, ya que se asocian perfectamente cuando la intensidad de la secundaria es grande (pico muy poco afectado por ruido estadístico) y también se asociarán cuando su intensidad sea menor, aunque aumentará la probabilidad de que la presencia de efectos nocivos afecte al pico cromatográfico y la correlación se reduzca drásticamente. Sin embargo, el hecho de observar que se obtienen resultados adecuados es lo realmente valioso de este trabajo, ya que nuestro objetivo no es hacer una herramienta óptima para la detección de compuestos y caracterización de su huella espectrométrica, sino comprobar que la idea de desarrollar una herramienta profesional detectando y caracterizando compuestos en base a su forma cromatográfica por correlación, tiene potencial, lo que sí se consigue con estas comprobaciones.

780 785 790 795 800 805 810 815 820 825 8302

2.5

3

3.5

4

4.5

5

5.5Agrupaciones secundaria y principal

Tiempo (s)

Inte

nsid

ad e

n e

scala

logarí

tmic

a

Principal con:

Tiempo: 799.5

Masa pesada: 463.089

Secundaria con:

Similitud al 96.4

Masa pesada de 466.097

Page 126: Desarrollo de técnicas de clustering en datos de ...

110

4.3. Aplicación del método de detección y caracterización de compuestos a una muestra simple preprocesando los artefactos químicos. En este apartado se aplica el método de detección y caracterización de

compuestos en la muestra 15 de la colección de matrices de estándares. Previamente a su aplicación, se aplica el método de identificación y supresión de artefactos químicos.

El método de identificación y supresión de artefactos químicos se ejecuta en

0,140 segundos y detecta los 4 artefactos que se dijeron en el apartado 4.1. Con el descarte de las entradas que corresponden a artefactos químicos, el

tiempo de ejecución del método se reduce, tardando únicamente 0,41 segundos (casi 2 segundos menos de antes de quitar los artefactos químicos). En la tabla 11 se observan los compuestos detectados y caracterizados en la muestra. Como se puede observar en la tabla, ahora sí se han encontrado exactamente los compuestos que hay en la muestra que estamos analizando y el tiempo de ejecución ha sido de poco más de medio segundo, por lo que hemos conseguido una mejora drástica al eliminar los artefactos químicos. Los resultados completos (incluyendo la huella espectrométrica de cada compuesto) están en el apéndice 1.

Compuesto Tiempo de

retención (s) Masa/carga (Da) (s) (mDa) Área (80%)

Nº de agrupaciones secundarias

1 373,5 595,133 5,168 1,254 160.384 10

2 412,2 463,088 4,896 2,134 30.544 3

3 498,8 191,056 2,309 0,688 246.900 41

4 599,2 191,056 1,847 0,640 47.660 9

5 634,9 179,035 2,084 0,441 200.556 42

6 744,0 609,148 2,201 0,627 350.664 27

7 799,5 463,089 1,991 0,648 677.852 42

Tabla 11. Agrupaciones principales tras los nuevos umbrales y condiciones.

Una vez que hemos obtenido los resultados para esta muestra, vamos a realizar una pequeña prueba para ver cómo se comporta el método cuando no se preprocesa tanto como se ha preprocesado ésta. En concreto vamos a analizar la muestra sin preprocesado de ruido (sin aplicar umbrales de intensidad ni filtrado de entradas aisladas) y sin identificación de artefactos químicos, únicamente acotando los tiempos exactamente igual a como hicimos antes. La aplicación del método de detección y caracterización de compuestos en la muestra ha tardado un total de 5 segundos (4,5 segundos más que antes) y obtiene los mismos compuestos (teniendo en cuenta los artefactos químicos), variando un poco el número de agrupaciones secundarias encontradas, lo que deja palpable el hecho de que es mejor utilizar el filtrado de ruido previo, un umbral de intensidad que elimine la distribución de entradas debidas a ruido iónico y el método que identifica y suprime los artefactos químicos, ya que hace que el volumen de datos sea significativamente inferior y se tarde mucho menos en analizar la muestra (sin filtrar el ruido se ha tardado 10 veces más), lo que será especialmente importante para muestras más complejas que esta. En este caso la comprobación de que el método ha funcionado es bastante sencilla, ya que no hay más que observar el espectrograma de baja resolución de la muestra para darse cuenta de los siete compuestos que hay en los tiempos de retención acotados. Además, dado que sabemos que no hay coelución ya que ha sido preparada específicamente en el laboratorio con este fin, se puede identificar cada

Page 127: Desarrollo de técnicas de clustering en datos de ...

111

compuesto y su huella espectrométrica de forma directa, como puede observarse en la figura 92. En la figura queda patente que los compuestos coinciden con los encontrados en la tabla de resultados (tabla 11), por lo que hemos comprobado que el método funciona correctamente en esta muestra.

Figura 92. Espectrograma de baja resolución (1 Da) con los 7 compuestos identificados con un

rectángulo amarillo.

Representando el cromatograma de pico base de la muestra con la intensidad en escala logarítmica en la figura 93, observamos que los siete compuestos se pueden detectar también por el método de detección manual, aunque el segundo se podría confundir con ruido ya que queda enmascarado parcialmente por éste.

Figura 93. Cromatograma pico base con los compuestos encontrados marcados.

300 400 500 600 700 800 9003

3.5

4

4.5

5

5.5

X: 374.5

Y: 4.435

Tiempo (s)

Inte

nsid

ad e

n e

scala

logarí

tmic

a

Cromatograma de pico base

X: 411.6

Y: 3.653

X: 498.9

Y: 4.838

X: 600.2

Y: 4.005

X: 634.3

Y: 4.745

X: 742.7

Y: 5.001

X: 798.9

Y: 5.257

Compuesto1.

Masa 595,133 Da

Compuesto 2.

Masa 463,088 Da

Compuesto 4.

Masa 191,056 Da

Compuesto 3.

Masa 191,056 Da

Compuesto 5.

Masa 179,035 Da

Compuesto 6.

Masa 609,148 Da

Compuesto 7.

Masa 463,089

Da

Page 128: Desarrollo de técnicas de clustering en datos de ...

112

Como conclusión de estos resultados se puede decir que, para muestras simples (sin coelución de compuestos), el método obtiene los mismos resultados que un método manual (7 compuestos detectados y ningún falso positivo), pero además caracterizando cada compuesto con su huella espectrométrica y con el proceso completamente automático, mejorando así las búsquedas manuales en muestras simples con el método implementado. Aunque estos resultados son buenos, la comprobación más importante del método se hará con las muestras de la colección de aceites, ya que será ahí donde el método se enfrentará a una situación mucho más compleja al haber muchos más compuestos y coelución de muchos de ellos.

Page 129: Desarrollo de técnicas de clustering en datos de ...

113

4.4. Resultados obtenidos para una muestra de la colección de aceites. En este apartado se va a obtener el resultado de aplicar el método de

detección y caracterización de compuestos en la muestra 1 de la colección de extractos fenólicos de aceites de oliva.

El espectrograma de baja resolución de la muestra completa (sin preprocesado

de ruido, limitación temporal ni supresión de artefactos químicos) se puede observar en la figura 62. Para notar la importancia del preprocesado de la muestra, en la tabla 12 se muestra el número de entradas de la muestra en los distintos pasos del preprocesado. De los datos se desprende que el último paso (identificación y eliminación de los artefactos químicos) es el que menos entradas suprime del total, pero hay que tener en cuenta que todas las entradas que suprime tienen una intensidad muy elevada, por lo que hará que los métodos que se usen tras este preprocesado tarden mucho menos al no haber tantas entradas de alta intensidad. Por ejemplo, el número de entradas con una intensidad superior a 1.000 cuentas es de 75.388 antes de eliminar artefactos químicos (tras realizar el resto del preprocesado) y se reduce a 50.371 tras eliminar los artefactos químicos, por lo que se han reducido a un 66,82% las entradas de alta intensidad, lo que es realmente muy beneficioso para cualquier procesamiento posterior de los datos.

Número de entradas

Antes del

preprocesado

Tras filtrado y umbral de 120 cuentas

Tras filtrado, umbral y limitación temporal

Tras filtrado, umbral de 120 cuentas,

eliminación de los 29 artefactos químicos

Porcentaje (final/original)

Muestra 1

de la colección

de extractos de aceites

de oliva

6.717.788 661.560 475.864 443.965 6,61 %

Tabla 12. Número de entradas según el grado de preprocesado realizado.

Para la detección y caracterización de compuestos por el método

implementado en este trabajo, se utilizará un umbral alto de intensidad de 8.000

cuentas, ya que la muestra es mucho más abundante que en el caso anterior, y un

umbral bajo de intensidad de 120 cuentas, como se defendió en el análisis del ruido.

Para la búsqueda de artefactos químicos se ha usado un umbral de intensidad de 500

cuentas.

A continuación se pueden observar los tiempos que ha tardado en ejecutarse

(siempre se ha usado un procesador de 4 núcleos a 2,5 GHz cada uno):

La búsqueda de artefactos químicos y su eliminación ha tardado 1,845

segundos, encontrando los 29 artefactos químicos que ya analizamos en el

apartado de resultados dedicado a la aplicación de su método (todos son

artefactos químicos).

La búsqueda de candidatos a ion principal de compuesto ha tardado 0,223

segundos y ha encontrado 217 candidatos, delimitándolos en 2,90 segundos.

Page 130: Desarrollo de técnicas de clustering en datos de ...

114

Los candidatos se han comparado en 1,177 segundos y se ha encontrado que

83 son principales y 134 son secundarias.

La búsqueda de iones secundarios ha tardado 25,56 segundos, encontrando

5.013 especies iónicas nuevas.

Los cálculos de las características de las especies iónicas han tardado 4,76

segundos.

El método ha tardado un total de 34,4 segundos en delimitar y caracterizar la

muestra compleja, por lo que se puede concluir que es rápido pero mejorable.

Comprobar los resultados no es fácil, ya que hay muchos compuestos y cada

uno tiene una huella espectrométrica muy extensa. Sin embargo, podemos comprobar

juntos los que tengan la misma masa para asegurarnos de que están bien delimitados

entre sí y correctamente reconocidos. Por ejemplo, en la figura 94 se puede observar

el cromatograma de ion extraído centrado en la masa 377,128 Da, con todas los picos

cromatográficos principales (ion principal de cada compuesto) resaltados en un color

distinto para que se diferencien entre sí. Si nos fijamos en la imagen, podemos

observar que todos los isómeros de la oleuropeína aglicona se han diferenciado del

resto formando compuestos independientes.

Figura 94. Cromatograma de ion extraído centrado en la masa 377,128 Da. Se pueden observar los picos cromatográficos principales en distintos colores.

Si observamos cada uno de los cromatogramas de ion extraídos que contienen uno o más picos cromatográficos principales detectados en la muestra (uno por compuesto), llegaremos a la conclusión que, de los 83 picos principales obtenidos, 19 serán falsos positivos (debidos principalmente al lavado final) y 64 restantes sí podrán ser picos cromatográficos principales de un compuesto distinto, lo que tendrá que comprobarse más adelante. En el apéndice 3 se han incluido las representaciones cromatográficas de los 83 supuestos compuestos detectados por el método.

Para realizar la comprobación de estos resultados se comprobará tanto la

detección correcta de los compuestos, como su caracterización. En primer lugar se va

0 5 10 15 20 250

1

2

3

4

5

6

7x 10

5

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (377.128 +- 0.0250) Da

Cromatograma ion extraído

Tiempo: 1245.770 s (20.76 min) Masa: 377.128 (Da)

Tiempo: 1133.145 s (18.89 min) Masa: 377.127 (Da)

Tiempo: 889.115 s (14.82 min) Masa: 377.127 (Da)

Tiempo: 1074.869 s (17.91 min) Masa: 377.127 (Da)

Tiempo: 1294.581 s (21.58 min) Masa: 377.127 (Da)

Tiempo: 1047.044 s (17.45 min) Masa: 377.128 (Da)

Tiempo: 975.558 s (16.26 min) Masa: 377.127 (Da)

Tiempo: 848.365 s (14.14 min) Masa: 377.127 (Da)

Tiempo: 1315.032 s (21.92 min) Masa: 377.127 (Da)

Tiempo: 861.613 s (14.36 min) Masa: 377.126 (Da)

Tiempo: 760.632 s (12.68 min) Masa: 377.126 (Da)

Tiempo: 757.462 s (12.62 min) Masa: 377.126 (Da)

Tiempo: 1148.099 s (19.13 min) Masa: 377.127 (Da)

Tiempo: 1026.004 s (17.10 min) Masa: 377.128 (Da)

Page 131: Desarrollo de técnicas de clustering en datos de ...

115

a comprobar que se hayan encontrado, al menos, los compuestos que se pueden

encontrar a mano tras un arduo análisis manual llevado a cabo por un experto. Para

ello, y dado que hemos manejado hasta el momento la muestra 1 de la colección de

aceites de oliva, vamos a seguir utilizándola ya que encontramos la información que

deseamos en uno de los artículos de la bibliografía [5]. En la tabla 13 se observa la

lista de compuestos encontrados manualmente en la muestra por un experto, en los

rangos temporales analizados, con la masa de su ion principal.

Número Tiempo de retención

(minutos) Relación masa/carga

experimental (Da) Posibles compuestos

1 6,47 153,0555 Hidroxitirosol

2 8,15 137,0605 Tirosol

3 14,53 319,1177 Deacetoxi oleuropeína aglicona

4 15,94 285,0399 Luteolina

5 16,69 357,1339 Pinoresinol

6 17,33 415,1381 Acetoxipinoresinol

7 18,68 269,0468 Apigenina

8 17,71 303,1237 Deacetoxi ligustrósido aglicona

9 14,12 377,1231 Oleuropeína aglicona isómero 1

10 14,78 377,1246 Oleuropeína aglicona isómero2

11 16,22 377,1236 Oleuropeína aglicona isómero 3

12 17,41 377,1260 Oleuropeína aglicona isómero 4

13 17,88 377,1253 Oleuropeína aglicona isómero 5

14 18,88 377,1264 Oleuropeína aglicona isómero 6

15 19,05 377,1268 Oleuropeína aglicona isómero 7

16 20,89 377,1271 Oleuropeína aglicona isómero 8

17 21,02 377,1267 Oleuropeína aglicona isómero 9

18 21,59 377,1269 Oleuropeína aglicona isómero 10

19 21,87 377,1259 Oleuropeína aglicona isómero 11

20 13,15 187,0975 Ácido azeláico

21 13,88 335,1145 Deacetoxi 10-hidroxi-oleuropeína

aglicona

22 15,72 417,1530 Siringaresinol

23 16,99 391,1387 Metil oleuropeína aglicona isómero 1

24 19,30 299,0577 Crisoeriol

25 16,47 361,1286 Ligustrósido aglicona isómero 1

26 16,64 361,1284 Ligustrósido aglicona isómero 2

27 17,48 361,1299 Ligustrósido aglicona isómero 3

28 19,10 361,1312 Ligustrósido aglicona isómero 4

29 20,74 361,1315 Ligustrósido aglicona isómero 5

30 20,99 361,1316 Ligustrósido aglicona isómero 6

31 21,89 361,1305 Ligustrósido aglicona isómero 7

Tabla 13. Compuestos presentes en la muestra 1 de extractos de aceites tras una búsqueda manual realizada por un experto en química analítica.

Como se puede observar en la tabla 13, tenemos 31 compuestos de masas

experimentales conocidas (de su ion principal) y tiempos de retención conocidos, por

Page 132: Desarrollo de técnicas de clustering en datos de ...

116

lo que vamos a buscarlos en la tabla de compuestos que hemos encontrado en

nuestro método y así descubriremos cuántos hemos encontrado. La lista de

agrupaciones principales encontradas en la muestra 1, ordenadas según salen de la

columna separativa, se puede observar en la tabla 14. En la tabla se han remarcado

en verde los compuestos que deberían salir según la tabla 13 y que los detecta

nuestro método de detección.

Compuesto Tiempo de

retención (s) Masa/carga

(Da) ( ) ( )

Área (80%)

Nº agrupaciones secundarias

1 6,46 153,058 2,20 0,21 521116 26

2 8,17 137,062 1,87 0,59 78920 7

3 12,37 139,007 5,22 0,63 74384 69

4 12,62 377,126 3,87 1,40 64584 12

5 12,68 377,126 5,50 1,44 97872 18

6 12,75 213,078 8,55 0,78 187400 22

7 12,77 139,007 5,29 0,45 161620 75

8 12,84 241,073 4,01 0,90 49596 31

9 13,08 349,132 19,94 0,86 520236 11

10 13,21 187,099 3,37 0,37 113260 7

11 13,23 95,049 4,57 0,53 112532 143

12 13,42 139,007 8,17 0,38 452504 41

13 13,51 213,078 7,95 0,96 124860 114

14 13,82 275,092 4,40 1,29 79396 101

15 13,88 335,116 1,64 0,87 146704 7

16 13,91 183,068 8,19 0,29 546232 39

17 14,04 195,068 5,60 0,98 81096 78

18 14,14 377,127 1,91 0,58 191656 41

19 14,17 95,049 7,44 0,40 241368 45

20 14,20 275,093 4,47 0,79 110872 25

21 14,36 377,126 4,55 0,90 170412 61

22 14,48 319,121 11,59 0,42 2516948 71

23 14,68 195,067 16,75 0,54 540280 64

24 14,68 185,118 1,31 1,28 27864 27

25 14,77 95,049 5,48 0,46 129556 50

26 14,82 377,127 2,22 0,74 752980 60

27 14,82 393,122 4,74 1,28 63240 20

28 14,85 320,124 22,02 0,72 673952 4

29 15,20 319,121 12,69 0,43 1788304 11

30 15,21 393,122 3,22 0,88 102412 58

31 15,25 95,049 8,92 0,38 124940 129

32 15,43 185,048 3,24 1,99 77332 9

33 15,48 195,068 10,11 0,61 104672 8

34 15,73 417,157 1,95 1,27 43152 13

35 15,97 285,043 1,95 0,45 879488 22

36 16,00 391,143 3,38 0,75 54108 33

37 16,19 319,120 1,96 0,71 51024 16

38 16,26 377,127 3,06 0,81 271696 28

39 16,34 241,073 1,74 0,62 135720 1

40 16,49 361,132 2,08 0,59 121084 75

41 16,69 275,092 3,37 0,72 71172 127

42 16,71 357,137 1,78 0,53 133212 7

43 17,01 391,143 2,35 0,44 91176 21

44 17,10 377,128 4,55 0,95 114320 138

45 17,20 307,084 4,53 0,74 145948 38

46 17,34 415,142 2,08 0,55 625536 35

Page 133: Desarrollo de técnicas de clustering en datos de ...

117

47 17,45 377,128 6,33 0,69 306052 115

48 17,48 213,078 2,73 0,37 310524 34

49 17,86 183,068 31,13 0,65 631608 21

50 17,91 377,127 2,66 0,46 456260 62

51 18,35 325,185 18,34 1,26 335368 76

52 18,43 275,090 8,16 0,99 247556 136

53 18,70 269,046 2,21 0,26 350044 6

54 18,89 377,127 2,09 0,57 737884 61

55 18,93 275,092 3,11 0,66 229428 48

56 19,13 377,127 4,85 0,67 539236 149

57 19,16 242,177 2,92 0,34 56000 5

58 19,17 361,132 4,49 1,03 59668 25

59 19,29 241,073 2,23 0,83 37992 3

60 19,32 299,057 1,67 1,15 36888 6

61 19,57 311,170 23,66 0,76 646700 51

62 19,58 149,026 10,02 0,62 194444 62

63 19,66 275,092 10,94 0,89 436996 93

64 20,19 391,142 3,46 0,97 48932 23

65 20,23 275,092 8,86 0,88 529840 131

66 20,63 361,133 6,08 0,65 209412 12

67 20,75 339,203 10,81 0,70 318380 82

68 20,76 377,128 7,85 0,74 3410852 47

69 20,88 375,113 2,53 1,27 181820 24

70 21,01 361,132 3,67 1,26 67548 82

71 21,09 265,150 7,47 0,69 273144 21

72 21,25 325,186 11,33 0,90 476648 16

73 21,30 291,089 7,09 0,86 86064 41

74 21,34 311,171 10,86 0,61 577940 52

75 21,47 339,203 12,91 0,54 451260 27

76 21,58 377,127 2,04 0,45 405100 53

77 21,67 391,143 3,39 0,88 69752 4

78 21,80 253,218 6,79 0,68 285032 78

79 21,84 297,155 8,33 1,00 162160 78

80 21,92 377,127 2,48 0,61 190216 31

81 22,24 343,263 2,12 0,38 76616 3

82 22,25 253,219 9,15 0,64 408940 146

83 22,39 315,127 1,58 0,64 54216 9

Tabla 14. Compuestos encontrados en la muestra 1 de aceites por el método implementado. En verde están marcados lo que coinciden con la tabla 13.

El número de compuestos encontrados por el experto (tabla 13) es de 31

compuestos y, de esos 31 compuestos, 27 compuestos se han detectado también con

el método de detección implementado, lo que es un buen resultado teniendo en cuenta

que este método está implementado de forma básica y que tiene muchas líneas

futuras de mejora.

El análisis de los 4 compuestos no detectados automáticamente pero sí

detectados de forma manual ayuda a determinar que líneas futuras de mejora del

método que harán que el método detecte, al menos, tantos compuestos como lo

pueda hacer un experto en una muestra compleja con coelución. Vamos a observar

sus cromatogramas de ion extraído.

Compuesto de masa/carga 303,1237 Da que sale en el tiempo de retención

17,17 minutos. Su cromatograma de ion extraído se puede observar en la

figura 95. Gracias al cromatograma podemos concluir que este compuesto no

Page 134: Desarrollo de técnicas de clustering en datos de ...

118

se ha detectado ya que no tiene intensidad suficiente como para pasar por el

umbral de intensidad alto que marcamos para la búsqueda de iones principales

de compuestos. Como se comentará en el apartado de vías futuras, sería una

buena mejora el implementar un algoritmo para la estimación del umbral de

intensidad alto cuyo valor dependa del fondo de ruido que haya en cada rango

pequeño de tiempo de retención, ya que en algunos tiempos de retención el

fondo de ruido es muy pequeño (por ejemplo entre 400 y 800 segundos), y en

otros tiempos de retención el fondo de ruido es enorme (por ejemplo entre

1.200 y 1.400 segundos), por lo que no es lógico que se busquen picos

cromatográficos en todo el espectro aplicando el mismo umbral de intensidad.

Figura 95. Cromatograma de ion extraído centrado en la masa 303,124 Da.

Compuesto de masa/carga 377,1267 Da que sale en el tiempo de retención

21,02 minutos. Su cromatograma de ion extraído se puede observar en la

figura 96 donde queda patente que este es un claro ejemplo de la dificultad de

establecer condiciones para que un pico cromatográfico sea bueno o malo, ya

que en este caso es muy difícil implementar un algoritmo genérico que consiga

distinguir que en ese punto (marcador de la imagen) puede haber un

compuesto de interés. Es decir, manualmente sí se puede observar que el pico

marcado es un pico distinto del superior de su izquierda, pero el problema es

que hay coelución entre los isómeros, lo que hace que la búsqueda de

máximos y mínimos para delimitar los picos dé lugar a situaciones como esta,

donde un pico poco abundante es solapado por un pico más abundante y no

hay mínimo local entre ellos (por lo que es normal que el método implementado

no lo resuelva).

700 800 900 1000 1100 1200 1300

0

1000

2000

3000

4000

5000

6000

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (303.124 +- 0.0250) Da

Page 135: Desarrollo de técnicas de clustering en datos de ...

119

Figura 96. Cromatograma de ion extraído centrado en la masa 377,127 Da.

Isómeros de masa/carga 361,1299, 361,1305, que salen en los tiempos de

retención 17,48 y 21,89 minutos, respectivamente. En la figura 97 se observa el

primer isómero (17,48 minutos).

Figura 97. Cromatograma de ion extraído centrado en la masa 361,130 Da.

Como se puede observar en la figura 97, esta especie iónica tiene una

abundante muy elevada (máximo de intensidad de más de 50.000 cuentas), por lo que

debería haber sido catalogada como especie iónica principal. Sin embargo, como se

puede observar en las huellas espectrométricas de los compuestos encontrados, esta

especie iónica se ha asociado a la especie iónica principal de masa 213,1 Da, que

sale de forma muy abundante en ese tiempo de retención, como se puede observar en

la figura 98.

20.2 20.4 20.6 20.8 21 21.2 21.4 21.6

1

2

3

4

5

6

x 105

X: 21.02

Y: 2.895e+05

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (377.127 +- 0.0250) Da

16.5 17 17.5 18 18.5 190

1

2

3

4

5

6x 10

4

X: 17.48

Y: 4.524e+04

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (361.130 +- 0.0250) Da

Page 136: Desarrollo de técnicas de clustering en datos de ...

120

Figura 98. Intensidad en función de la masa para un tiempo de 1.048 segundos.

En la figura 99 se observan los cromatogramas de ion extraído de ambas

especies iónicas (imagen superior de la figura 99 será la especie iónica principal en

213,079 Da, y la imagen inferior será la especie iónica secundaria que estamos

analizando), ya que han sido asociadas entre sí, e interesa saber por qué. Viendo en

detalle ambos picos cromatográficos, se puede observar que las formas

cromatográficas son muy parecidas ya que en la masa 213,079 Da se pueden

observar realmente dos picos cromatográficos que están coeluyendo prácticamente en

todo el tiempo de retención (se observa un cambio significativo en la parte izquierda de

la señal, provocado por la coelución de dos compuestos). Si nos fijamos, la parte

izquierda de ambas gaussianas es prácticamente igual, pero en la subida la

distribución de la señal de masa 213,079 Da cambia a un forma cromatográfica

significativamente distinta (momento marcado con una línea roja), donde se aprecia

que hay coelución no resuelta entre varios compuesto. Lo más probable es que, dado

que la subida de intensidad inicial es prácticamente igual que la de la imagen inferior,

en la imagen superior esté coeluyendo un cluster o fragmento del ion de masa 361,13

Da con el ion de masa 213,079 Da.

Este caso es interesante ya que presenta una nueva línea futura de mejora del

método, que consistirá en que, si vemos una posible coelución entre dos compuestos,

buscamos picos cromatográficos en ese tiempo de retención que tengan una

correlación alta con las distintas partes del pico que coeluyen, de forma que se podrá

distinguir la coelución de compuestos por correlación del pico cromatográfico con

coelución, con los picos cromatográficas bien delimitados en otra masa y que pueden

ser responsables de dicha coelución (por un cluster, fragmento, etc.).

0 200 400 600 800 1000 12000

1

2

3

4

5

6x 10

4

X: 361.1

Y: 4.524e+04

Masa (Da)

Inte

nsid

ad

Intensidad en función de la masa para el tiempo 1048 segundos

X: 213.1

Y: 5.484e+04

Page 137: Desarrollo de técnicas de clustering en datos de ...

121

Figura 99. Cromatogramas de ion extraído centrados en las masas 213,079 Da (superior) y 361,130 Da (inferior).

El isómero restante no detectado por el proceso automático puede verse en la

figura 100. Al igual que antes, esta agrupación ha sido asignada como una especie

iónica secundaria de la oleuropeína aglicona, que coeluye exactamente en este tiempo

con este compuesto.

Figura 100. Cromatograma de ion extraído centrado en la masa 361,130 Da.

1290 1300 1310 1320 1330 1340 13500.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2

2.2

x 104

X: 1314

Y: 1.955e+04

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (361.100 +- 0.2500) Da

Page 138: Desarrollo de técnicas de clustering en datos de ...

122

Por lo tanto, de los 4 compuestos que encontraba el método manual pero no

llegaba a encontrar el método automático, uno de ellos no se detectaba por estar por

debajo del umbral de intensidad alto, lo que se solucionaría con un umbral de

intensidad adaptable, dos de ellos no se detectan por haber una coelución entre

compuestos que se podía distinguir de forma manual pero no de forma automática

(mejora mediante una línea futura de modelado de casos de coelución) y el último se

asocia a un compuesto de más abundancia (se podría solucionar con umbrales de

distancia entre picos cromatográficos que dependan de la intensidad de dicho pico y

del fondo de ruido).

Si de las 83 agrupaciones principales encontradas, 27 coinciden con

compuestos que se han encontrado en esta muestra (según el análisis manual de un

experto) y 19 son debidas a artefactos y lavado, las 37 restantes podrían ser debidas a

compuestos detectados por la herramienta automática pero no por el método manual,

lo que sería una gran mejora con respecto a dichos métodos (aunque ya se podría

considerar que se han mejorado al detectar correctamente el 87,1% de los

compuestos que detecta, habiéndolo hecho de forma automática con una

implementación básica del método).

Comprobar los 37 candidatos a compuestos es realmente difícil, ya que hay

que observar con qué especies iónicas coeluye y, en caso de que lo haga (que en

estas muestras casi siempre pasará), comprobar que los picos cromatográficos de las

especies iónicas con las que coeluyen no son debidas al mismo compuesto (es decir,

tienen una forma cromatográfica muy distinta), por lo que habrá que observar varios

cromatogramas de ion extraído para cada candidato a compuesto nuevo, e incluso

cuando se observen todos los cromatogramas, no se puede estar seguro de si uno de

ellos coeluye con la suficiente similitud cromatográfica (no es un nuevo compuesto) o

no (sí sería un nuevo compuesto). Por lo tanto, dado que el interés de este trabajo es

demostrar que se pueden obtener resultados tan buenos como los obtenidos

manualmente y detectando más compuestos que no se detectaban anteriormente, lo

que se va a hacer es ver los compuestos restantes y mostrar aquí los que son

evidentemente un nuevo compuesto (los más evidentes, ya que hay más pero se

necesitaría realizar un estudio químico en profundidad para demostrar que son

compuestos nuevos). A continuación se puede observar los casos más evidentes.

- Compuesto 3 de la tabla 13, con tiempo de retención 12,37 minutos (748,7

segundos siendo más precisos) y masa/carga 139,007 Da. El

espectrograma de ion extraído para observar este pico y las intensidades

que hay en el tiempo de retención donde está el máximo del pico

cromatográfico, se pueden observar en la figura 101. Teniendo en cuenta

que, aunque el pico cromatográfico que se observa no destaca mucho por

encima del fondo de ruido (ya que tiene una subida y bajada lentas), se

encuentran mínimos locales a ambos lados a un 67% de intensidad del

máximo, por lo que realmente la diferencia es muy grande y se debe a un

compuesto que está saliendo en este tiempo de retención y con esta

masa/carga. La evidencia de que este es un compuestos nuevo es que no

hay otro pico cromatográfico de intensidad mayor saliendo alrededor de su

tiempo de retención, ni tampoco detecta el experto ningún compuesto

eluyendo en este tiempo de retención, por lo que este es un caso en el que

Page 139: Desarrollo de técnicas de clustering en datos de ...

123

se ha encontrado un compuesto que no se ha detectado por el método

manual pero sí lo detecta el método automático implementado en este

trabajo.

Figura 101. Cromatograma de ion extraído (superior) e intensidades para cada masa en el tiempo de retención (inferior).

- Compuesto 83 de la tabla 14 que sale en el tiempo de retención 22,39

minutos y con una masa de ion principal de 315,127 Da. Su cromatograma

de ion extraído se ha representado en la figura 102, donde se puede

observar que es un pico poco abundante pero perfectamente formado, por

lo que puede ser un compuesto independiente. Si observamos los

compuestos detectados de forma manual de la tabla 13 veremos que no

hay ningún compuesto en este tiempo de retención, por lo que este pico

cromatográfico se corresponde realmente a la salida de un compuesto

detectado por el método automático implementado y no detectado por el

método manual. Hay que destacar que el método manual no lo detecta por

su coelución con el lavado final del análisis, por lo que este es un ejemplo

claro de que el método implementado en el trabajo consigue detectar

compuestos que coeluyen con otros más abundantes.

740 742 744 746 748 750

7000

8000

9000

10000

11000

12000

13000 X: 748.7

Y: 1.194e+04

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (139.007 +- 0.0250) Da

X: 742.7

Y: 7596 X: 751.7

Y: 8632

0 100 200 300 400 500 600 700 800 900 10000

1

2

3

4

5

6x 10

4

X= 139.01

Y= 54592

Masa (Da)

Inte

nsid

ad

Cromatograma centrado en tiempo (748.700 +- 2.5000) segundos

X= 127.04

Y= 20516

X= 149.03

Y= 12324

Page 140: Desarrollo de técnicas de clustering en datos de ...

124

-

- Figura 102. Cromatograma de ion extraído centrado en la masa 315,130 Da.

- Compuesto 39 de la tabla 13, con tiempo de retención 16,32 minutos y

masa/carga 241,07 Da. En la figura 103 se puede observar el

cromatograma de ion extraído y la intensidad para las distintas masas en

ese tiempo de retención.

Figura 103. Cromatograma de ion extraído (superior) e intensidades para cada masa en el tiempo de retención (inferior).

Este caso es especialmente interesante ya que, si se representa el

cromatograma de ion extraído de la oleuropeína aglicona (que es la única que podría

ser una especie iónica superior a la encontrada por ser más abundante), se observa

que el pico cromatográfico observado en la masa 241,07 Da es el pico principal de un

compuesto que tiene un cluster en la masa 377,13 Da y que coeluye con un isómero

de la oleuropeína aglicona, como puede observarse en la figura 104, donde se ha

marcado la coelución con una raya roja. Por lo tanto, el compuesto encontrado en la

masa/carga 241,07 Da es realmente un compuesto no detectado de forma manual

1320 1330 1340 1350 1360 1370

0

5000

10000

15000

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (315.130 +- 0.0250) Da

960 970 980 990 1000 1010 10200

1

2

3

4x 10

4

X: 979.5

Y: 3.836e+04

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (241.000 +- 0.2500) Da

0 100 200 300 400 500 600 700 800 900 10000

0.5

1

1.5

2

2.5x 10

5

X= 377.13

Y= 217928

Masa (Da)

Inte

nsid

ad

Cromatograma centrado en tiempo (979.500 +- 2.5000) segundos

X= 241.07

Y= 159768

Page 141: Desarrollo de técnicas de clustering en datos de ...

125

pero sí detectado con nuestro método, y además se ha conseguido distinguir cuando

presentaba una fuerte coelución con uno de los compuestos más abundantes de la

muestra; un isómero de oleuropeína aglicona, lo que aporta una evaluación muy

positiva al método implementado.

Figura 104. Cromatograma de ion extraído centrado en la masa 377,13 Da.

En base a las comprobaciones llevadas a cabo, se puede concluir lo siguiente:

- De los 31 compuestos detectados manualmente, el método automático

detecta 27. Los 4 compuestos restantes no son detectados por ausencia de

modelado de la coelución y necesidad de umbrales adaptativos en función

del fondo de ruido, por lo que se detectarán los 4 compuestos aplicando

mejoras en el método implementado.

- De los 83 candidatos a compuestos encontrados automáticamente, 27 son

compuestos con certeza (porque son los encontrados manualmente) y 19

son falsos positivos provocados por el lavado, que también se podrá

eliminar como una línea futura de mejora del método. De los 37 candidatos

restantes, se ha comprobado que algunos de ellos sí representan

compuestos nuevos de forma evidente, mientras que otros necesitarían de

un análisis químico en profundidad para determinar si son compuestos

nuevos o son falsos positivos.

Es decir, el método automático ha obtenido el 87,1% de los compuestos que se

encuentran por el método manual exhaustivo y se prevé que los restantes compuestos

no detectados se detectarían implementando una serie de mejoras. Además, el

método automático ha obtenido una serie de candidatos a compuestos (37) de los que

algunos se han comprobado que, efectivamente, se corresponden con compuestos

nuevos no descubiertos en la búsqueda manual. A costa de la detección de

compuestos que no se observan en el método manual, se han introducido algunos

falsos positivos debidos, principalmente, al lavado de la columna separativa. Por lo

tanto, se ha probado que, incluso con una implementación básica del método de

detección automática y caracterización de compuestos, se consiguen encontrar casi

todos los compuestos que se encuentran manualmente y algunos que únicamente se

Page 142: Desarrollo de técnicas de clustering en datos de ...

126

encuentran de forma automática con este método, incluso cuando tienen una fuerte

coelución con otro compuesto, lo que es un gran avance y aporta una evaluación muy

positiva del método implementado.

A continuación vamos a realizar la otra comprobación del método de detección

y caracterización de compuestos, que consiste en comprobar que la huella

espectrométrica de los compuestos se ha obtenido de forma adecuada.

Para realizar esta comprobación se va a considerar que, el mismo compuesto

en muestras distintas, deberá tener prácticamente la misma huella espectrométrica si

ésta se ha cogido con un criterio adecuado. Esta consideración se basa en el

fundamento de que los iones principales en ambas muestras variarán en tiempo

(desalineamiento temporal) y en masa (descalibración en masa) pero ese mismo

desalineamiento debería afectarle también a toda la huella espectrométrica y, por

tanto, debería agruparse la misma huella espectrométrica en ambos casos (con las

mismas especies iónicas más abundantes). Es decir, si el criterio de agrupamiento de

huella espectrométrica (correlación de formas cromatográficas) es bueno, las huellas

espectrométricas del mismo compuesto han de ser iguales (teniendo en cuenta que la

abundancia del compuesto en la muestra será también un factor determinante) en las

distintas muestras.

Para realizar la comprobación, lo primero que se ha realizado es elegir un

compuesto, que en este caso ha sido el más abundante, el isómero principal (o más

abundante) de la oleuropeína aglicona, que sale en un tiempo de retención de,

aproximadamente, 20,76 minutos (1.245,8 segundos) con una masa de 377,128 Da.

Se ha utilizado la herramienta de detección y caracterización con cada una de las 22

muestras de la colección, obteniendo unos resultados que no se pondrán

completamente en esta memoria, ya que son demasiado largos. La parte que se va a

poner de los resultados, por si se quiere comprobar que se han realizado las

simulaciones sobre cada uno de ellos y se han tenido todos en cuenta, es la tabla de

los compuestos que se han identificado en cada uno de ellos, que se puede observar

en el apéndice 4 (aunque lo importante se va a poner a continuación).

Una vez que se han obtenido los resultados para cada una de las 22 muestras

de la colección, se localizan y comparan las huellas espectrométricas del compuesto

elegido. Para realizar la comprobación se van a comparar para cada muestra,

únicamente las 20 líneas espectrométricas más abundantes de la huella

espectrométrica. Si se realiza esta comparación y se ve el número de veces que se ha

encontrado cada línea entre las 20 más abundantes de cada huella espectrométrica,

obtenemos el resultado que se observa en la tabla 15.

Masa/carga (Da) Área cromatográfica

relativa Repeticiones

Proporción del total (%)

377,128 100,00 22 100

307,084 47,18 22 100

275,092 33,36 22 100

378,132 24,38 22 100

345,101 16,05 22 100

149,026 18,09 22 100

Page 143: Desarrollo de técnicas de clustering en datos de ...

127

95,049 9,36 22 100

111,010 6,73 22 100

139,038 13,74 21 95

308,088 7,46 21 95

755,260 26,59 20 91

399,110 14,51 20 91

276,095 5,96 20 91

756,263 11,33 19 86

379,133 4,61 18 82

127,041 4,72 18 82

121,032 3,38 17 77

757,265 3,87 14 64

327,090 3,37 13 59

413,105 3,89 13 59

101,024 5,22 11 50

346,104 3,25 11 50

415,091 3,01 7 32

96,052 0,93 5 23

140,041 1,05 5 23

116,929 4,64 4 18

147,047 1,35 3 14

150,029 0,97 3 14

209,053 1,95 2 9

68,995 0,37 2 9

195,067 4,34 2 9

112,013 0,40 2 9

138,030 0,16 1 5

143,036 0,21 1 5

309,092 0,43 1 5

441,102 0,30 1 5

519,120 0,26 1 5

689,303 0,23 1 5

690,311 0,17 1 5

717,336 0,27 1 5

779,238 0,12 1 5

153,057 1,17 1 5

196,068 0,55 1 5

239,057 2,23 1 5

191,037 1,40 1 5

375,113 5,20 1 5

137,036 0,51 1 5

Tabla 15. Líneas espectrométricas más abundantes de la oleuropeína aglicona en el minuto 20,76 para las 22 muestras de aceite de oliva.

Page 144: Desarrollo de técnicas de clustering en datos de ...

128

En la tabla se puede observar que hay 8 líneas espectrométricas que están en

todas de las huellas espectrométricas que corresponden al compuesto en las 22

muestras. Cabe destacar que hay 17 líneas que se repiten en más del 75% de las

muestras, por lo que estas líneas podrían caracterizar perfectamente al compuesto, ya

que son líneas (fragmentos, variantes isotópicas y clusters) que aparecen en casi

todas las muestras. También se puede observar que 22 líneas espectrométricas

aparecen en, al menos, la mitad de las muestras.

Un hecho interesante que hay que tener en cuenta es que hay muchas líneas

(15) que únicamente aparecen en una muestra. Esto no se debe a un error, sino a que

hay algunas muestras de extractos fenólicos de aceites de oliva (principalmente las de

la variedad Picual) que tienen mucha más abundancia iónica de oleuropeína aglicona

que las demás muestras, por lo que la huella espectrométrica que se forma a partir de

la molécula de la oleuropeína aglicona, es mucho mayor (con más líneas) en dichas

muestras.

También interesa tener en cuenta la alta correlación que hay entre el área

relativa de la línea secundaria y el número de muestras en las que aparece cada línea,

ya que cuando el área es grande, la línea se repite en prácticamente todos los

compuestos, mientras que cuando el área es pequeña, la línea se repite en muy

pocos. Esto se debe a que, cuanto menor sea la abundancia del ion principal, menor

será la abundancia de sus líneas espectrométricas y habrá muchas que se queden por

debajo del fondo de ruido en algunas muestras, pero sí se puedan detectar en otras.

Por lo tanto, las líneas que se detectan en algunas muestras pero no en otras,

evidencian el hecho de que, en las muestras donde no aparecen, el ion principal del

compuesto no es tan abundante como en las otras muestras, lo que hace que esa

línea secundaria no se consiga detectar por quedar oculta por el fondo de ruido.

Por lo tanto, la caracterización de la huella espectrométrica se puede

considerar correcta, ya que se han obtenido los mismos resultados (teniendo en

cuenta que algunas huellas espectrométricas estarán más completas que otras) para

el mismo compuesto en 22 variantes de extractos fenólicos de aceites de oliva.

Como conclusión a estos resultados y teniendo en cuenta que las muestras de

extractos fenólicos de aceite analizadas son muy complejas, podemos concluir en que

el método ha dado unos resultados muy buenos para ser una implementación “básica”

del mismo, y es inmediato notar el gran potencial que tiene este método, por la gran

cantidad de aspectos que se pueden optimizar y sistematizar.

Page 145: Desarrollo de técnicas de clustering en datos de ...

129

4.5. Resultados obtenidos al aplicar el método de agrupación de compuestos a una colección de muestras.

En este apartado se va a aplicar el método de agrupación de compuestos a las

30 muestras de la colección de matrices de estándares, para observar sus resultados.

Tras ejecutar este método, tendremos como resultado una tabla de compuestos presentes en alguna de las 30 muestras de la colección, así como una tabla que muestre la huella espectrométrica más abundante de cada uno de los compuestos. Además, tendremos una tabla que nos indica el área cromatográfica de cada compuesto del conjunto en cada una de las muestras analizadas, lo que da idea de su abundancia en la muestra. No tiene sentido mostrar aquí la salida de cada una de las muestras ya que sería demasiado extenso, ni tampoco la huella espectrométrica de los compuestos que hay en el conjunto, por lo que nos vamos a limitar a mostrar los compuestos encontrados en las muestras analizadas.

En primer lugar se va a recordar que en estas muestras se mezclaban 5

estándares de polifenoles, apareciendo en algunas de ellas alguno de los 5 polifenoles (según se añadiese a esa muestra o no), además de algún compuesto contaminante o algún isómero de los 5 polifenoles. En la tabla 16 se puede observar dónde encontramos los iones relativos a cada compuesto polifenólico.

Compuesto Tiempo de retención (s) Masa/carga (Da)

C1 373,5 595,133

C2 498,8 191,056

C3 634,9 179,035

C4 744,0 609,148

C5 799,5 463,089

Tabla 16. Compuestos mezclados en la colección de matrices de estándares.

Una vez se han observado de nuevo los compuestos que deben aparecer, vamos a usar los métodos implementados. Tras 13,68 segundos de ejecución del método, que incluyen tanto la obtención de datos de las muestras como su análisis por separado y conjuntamente, obtenemos los resultados. En la tabla 17 se pueden observan los compuestos que se han encontrado para el conjunto de las 30 muestras de la colección, ordenados según su tiempo de retención.

Compuesto Tiempo de

retención (s) Masa/carga

(Da) ( ) ( )

Área (50%)

Área (80%)

Nº agrupaciones secundarias

1 359,75 191,056 9,10 1,60 94108 58984 13

2 375,87 595,128 5,51 0,63 642432 431176 20

3 413,40 463,087 6,18 1,77 121740 61564 4

4 501,22 191,056 2,60 0,39 882612 615776 58

5 600,63 191,057 2,40 0,58 121124 64428 20

6 635,79 179,035 2,11 0,26 836616 585476 57

7 744,46 609,148 2,07 0,57 1059376 816620 33

8 800,28 463,090 2,43 1,61 3211992 2079824 58

Tabla 17. Compuestos encontrados en las 30 muestras de la colección de matrices de estándares.

Como se puede observar, se han encontrado 8 compuestos distintos en la colección de matrices, que serán los 5 compuestos polifénolicos mezclados y 3 contaminantes o isómeros de esos 5. En el apéndice 5 se puede observar una tabla donde se muestra la presencia de cada uno de los 8 compuestos encontrados, en

Page 146: Desarrollo de técnicas de clustering en datos de ...

130

cada una de las 30 muestras analizadas.

La forma de comprobar que la agrupación de compuestos de todas las muestras se ha hecho bien, es que si se sabe qué polifenoles se han añadido a cada muestra (por la tabla que se mostró cuando se documentaron los datos), entonces no hay más que comprobar si el resultado del método coincide con dichos resultados. Los polifenoles que se mezclaron son los que aparecen en la tabla anterior con los números 2, 4, 5, 7, 8. Observando la presencia de cada uno de estos compuestos en las distintas muestras que indica el método (apéndice 5), y comparándolo con los que se han mezclado en cada muestra en el laboratorio (tabla 2), se observa que todos los resultados obtenidos para esos compuestos son correctos, ya que todas las presencias encontradas por nuestro método coinciden con la información que viene documentada sobre esta colección de muestras. Además, se puede observar una gran correlación entre el área cromatográfica obtenida y la concentración teórica del compuesto en la muestra, lo que es lógico ya que, cuanta más concentración de compuesto haya, más abundante será el compuesto en la ionización y más corriente iónica tendrá, aumentando su área cromatográfica (se puede observar en el apéndice 5).

Habiendo demostrado que la agrupación de compuestos de una colección de muestras da resultados muy buenos para una colección de muestras simples (la de matrices de estándares), el método se podría optimizar para asegurar unos resultados adecuados tanto para esta colección (lo que ya se ha hecho), como para colecciones más complejas (como la de las muestras de extractos fenólicos de aceites). Sin embargo, dado que comprobar que las muestras de aceite se agrupan de forma correcta sería muy largo de llevar a cabo, no se van a poner sus resultados ya que no tiene sentido ponerlos si no se van a poder comprobar. Además, hay que tener en cuenta que este último método depende de lo bien agrupada que esté la huella espectrométrica en el paso anterior, así como de la precisión en el cálculo de las áreas cromatográficas, por lo que mejorando el método principal de este trabajo se obtendrán mejores resultados en una muestra compleja.

Por lo tanto, se puede concluir en que esta forma de agrupar los compuestos de una colección es muy adecuada, ya que reduce la información de muchas muestras de una colección a tan solo tres tablas (compuestos, huellas espectrométricas de cada compuesto y áreas de los compuestos en las muestras), consiguiendo una reducción máxima del volumen de información y permitiendo que se puedan analizar un conjunto de muestras como si fuesen una única muestra, reduciendo así la varianza estadística de las medidas que se obtengan para cada compuesto.

Page 147: Desarrollo de técnicas de clustering en datos de ...

131

5. Conclusiones y líneas futuras.

En los siguientes apartados se expondrán las conclusiones que se han sacado tras observar objetivamente el trabajo realizado a lo largo de este proyecto, los resultados de la implementación de los métodos propuestos. También se expondrán las líneas futuras en las que se debería trabajar para mejorar y optimizar los métodos implementados, en base a la evaluación de los resultados obtenidos. Además, también se expondrán las conclusiones de ámbito académico que se han sacado en el transcurso de este trabajo.

5.1. Trabajo general realizado.

En líneas generales, a lo largo de este trabajo se han realizado una serie de tareas, que se resumen a continuación:

Familiarización con datos HPLC-MS.

En este trabajo ha sido necesario introducirse en el análisis químico de muestras

mediante técnicas cromatográficas acopladas a espectrometría de masas, para comprender y dar explicación a los fenómenos observados en las señales obtenidas. También se han aprendido diversas formas de manipular los datos HPLC-MS y las ventajas e inconvenientes de cada una de ellas (por ejemplo, de las formas de representar los datos HPLC-MS). Toda esta tarea se ha llevado a cabo, principalmente, al principio del trabajo, ya que es necesaria para poder realizar cualquier tarea posterior, y ha sido muy útil para adquirir una gran destreza y fluidez en el manejo de este tipo de datos.

Entender los datos y señales HPLC-MS y su relación con los compuestos

químicos de una muestra. Tras comprender los fundamentos generales del análisis HPLC-ESI-TOF/MS, se

llevó a cabo un estudio mucho más detallado de los procesos que afectan directamente al procesamiento de datos HPLC-MS, analizando las fuentes de ruido presentes y profundizando en la detección, conversión, almacenamiento de entradas (de espectro suma a espectro de línea, por ejemplo), etc., además de comprender procesos muy variados que provocan salidas anómalas del sistema (por ejemplo, la supresión iónica).

También ha sido necesaria la adquisición de conceptos de muchas disciplinas,

por ejemplo la estructura molecular y cómo afecta a las señales de salida del sistema (por ejemplo, los isómeros son moléculas de igual fórmula pero distinta estructura, lo que hace que se retengan de forma distinta en la columna separativa pero presenten un patrón de fragmentación parecido), y muchos más conceptos interdisciplinares que se han ido adquiriendo a lo largo del trabajo y que ha servido para introducir al graduando no sólo en el análisis químico de compuestos, sino también en conceptos muy variados de la ingeniería que serán aplicables a cualquier campo de estudio y de trabajo, por ejemplo la redacción de artículos científicos, la estructuración de un trabajo, etc.

Implementación de varios métodos, algunos desarrollados anteriormente y

otros ideados y desarrollados en este trabajo. En este trabajo se han implementado diversos métodos, algunos desarrollados

Page 148: Desarrollo de técnicas de clustering en datos de ...

132

anteriormente en otros trabajos (artículos, tesis, congresos, etc.) y otros ideados, desarrollados y evaluados en este trabajo. A continuación se pueden observar los más usados en la realización del trabajo:

Métodos para mostrar los datos HPLC-MS.

La implementación manual de cromatogramas y

espectrogramas, basándose en su desarrollo en trabajos previos, ha resultado de gran utilidad a lo largo de todo el trabajo y se han usado de forma implícita en la realización de cualquier tarea a lo largo de éste.

Algoritmo de reducción de ruido iónico/electrónico.

Este algoritmo se ha implementado de acuerdo a su desarrollo en un trabajo anterior y ha sido muy útil para procesar los datos de forma más rápida. También ha ayudado a comprender, que conceptos sencillos (el compuesto sale en una forma gaussiana, por lo que ha de tener muestras contiguas en tiempo de retención), pueden ayudar significativamente en situaciones complejas, lo que ha de tenerse claro cuando se busque solucionar problemas en el ámbito de la ingeniería o en cualquier otro.

Identificación y supresión de artefactos químicos.

Este método ha sido ideado, desarrollado, implementado y

evaluado e este trabajo, consiguiendo unos resultados muy interesantes con un procedimiento novedoso y viendo que resulta muy útil para cualquier procesamiento posterior de las muestras.

Detección y caracterización de compuestos por comparación

cromatográfica. Este método también ha sido ideado, desarrollado,

implementado y evaluado en este trabajo, consiguiendo unos resultados satisfactorios que muestran esta vía de detección y caracterización, como un método con mucho potencial.

Comparación de compuestos detectados en colecciones de muestras.

Este método se ha ideado y desarrollado como una extensión

del método anterior, aplicando las ventajas que presenta. Sin embargo, a pesar de la gran cantidad de horas dedicadas al conjunto del trabajo de fin de grado (muchas más de las estipuladas según los créditos que le corresponden), este método no se ha podido evaluar en la colección de muestras de aceites, lo que hubiese sido una prueba mucho más sólida de que este método funciona adecuadamente en situaciones complejas y no solo en situaciones simples (colección de muestras de matrices de estándares).

Evaluación de métodos implementados.

A lo largo del trabajo se han evaluado todos los métodos implementados, tanto

ideados como implementados según un desarrollo previo. En el apartado con las conclusiones de cada método se comentan los resultados. Sin embargo, las evaluaciones realizadas en el trabajo han contribuido a comprender mejor cómo se ha

Page 149: Desarrollo de técnicas de clustering en datos de ...

133

de realizar y documentar una evaluación en un texto científico, así como la formación de una actitud crítica con los resultados.

Análisis de líneas futuras a partir de las limitaciones observadas.

En cada método propuesto se han encontrado líneas futuras de mejora del método que harán que obtenga mejores resultados, que se comentarán más adelante en las conclusiones específicas de cada método. A lo largo del trabajo se ha comprendido la necesidad de especificar una serie de objetivos iniciales sólidos al inicio del trabajo o proyecto, ya que continuamente se encuentran líneas que podrían ser investigadas pero que hay que saber distinguir entre las que son imprescindibles para poder cumplir los objetivos iniciales, y las que suponen una línea de investigación a largo plazo y no han de ser abordadas (al menos completamente) en ese trabajo o proyecto.

5.2. Método principal. Detección y caracterización de compuestos en una muestra HPLC-TOF/MS.

La implementación de este método ha permitido comprobar que la detección y

caracterización completa de los compuestos de una muestra, partiendo de la localización rápida de estos compuestos mediante el uso de un umbral alto y la posterior agrupación de compuestos según las correlaciones de sus picos cromatográficos, es viable. Además, la aplicación de técnicas de tratamiento de la señal como el filtrado paso-baja o la consideración de los picos cromatográficos de un compuesto como un espacio vectorial, ha permitido comparar picos cromatográficos entre sí mediante la proyección de sus vectores. Este último proceso ha permitido formar la huella espectrométrica de cada compuesto al considerar que, independientemente de la intensidad, la forma cromatográfica de las líneas de la huella espectrométrica de un compuesto, debe ser igual a la forma cromatográfica del ion principal de dicho compuesto (salvo ruido), y distinta de otro compuesto que esté saliendo de la columna separativa en el mismo instante de tiempo de retención.

Teniendo en cuenta los resultados obtenidos tanto para la colección de

matrices de estándares como para la colección de extractos fenólicos de aceites (esta última es la que más fuerza aporta a las comprobaciones por ser mucho más complicada), se ha demostrado que el potencial de este método es muy alto, ya que se ha conseguido automatizar un proceso que, hasta el momento, sólo podía realizarse de forma manual por haber coelución de compuestos. Se ha comprobado que, con una implementación básica de este método, ya se consiguen encontrar casi los mismos compuestos que se encuentran manualmente y además se encuentran varios compuestos presentes que no han sido encontrados a mano (además se han encontrado en situaciones de alta coelución, por lo que es muy buen resultado), por lo que ha quedado demostrado el gran potencial que tiene el método de detección y caracterización de compuestos basado en correlaciones entre picos cromatográficos. También se han encontrado líneas claras de mejora del método, que harán que se aumente el número de compuestos detectados correctamente y se reduzcan los falsos positivos. Estas líneas se pueden ver a continuación:

Posibilidad de automatizar el cálculo de un umbral mínimo de intensidad para eliminar el ruido básico que hay en los datos. En este trabajo se ha explicado el criterio a seguir para buscar ese mínimo,

buscando el cambio de distribuciones de intensidades en el histograma de

Page 150: Desarrollo de técnicas de clustering en datos de ...

134

intensidad. Por lo tanto, se puede desarrollar un algoritmo que busque ese umbral de intensidad por debajo del cual no vamos a distinguir la información del ruido, basándose en la idea aportada del cambio de distribución en el histograma de las intensidades.

Necesidad de implementar un algoritmo que calcule el umbral alto de intensidad que usa el método principal. En este trabajo se ha usado un umbral de 2.000 para las muestras de matrices,

y uno de 8.000 para las muestras de aceites, cogiéndose en ambos casos de forma manual según las intensidades observadas experimentalmente en cada colección de muestras. Sin embargo, en primer lugar sería necesario que su cálculo fuese automático para aumentar la independencia del método.

En segundo lugar se ha observado varias veces que el umbral alto de

intensidad debería depender del fondo de ruido de cada zona del espectrograma, ya que había ventanas de tiempo de retención y de masa/carga donde el fondo de ruido tenía muy poca intensidad y algunos compuestos quedaban por debajo del umbral alto de intensidad por estar éste demasiado elevado (a pesar de tener una SNR alta), mientras que en otros casos ocurría lo contrario; el fondo de ruido estaba muy por encima del umbral de intensidad alto, por lo que nuestro método los reconocía como compuestos (falsos positivos) haciendo que tardase muchísimo más en analizar la muestra y perdiendo la gran ventaja que aporta este método.

Esta mejora interesaría que fuese lo más óptima posible ya que de ella

depende encontrar un mayor número de compuestos en la muestra y reducir el número de falsos positivos.

Modelado de un mayor número de situaciones para la delimitación de los picos cromatográficos. El hecho de tener que comparar las formas cromatográficas entre sí, hace que

sea muy importante realizar una buena delimitación de los picos cromatográficos. Sin embargo, también es muy importante que, al delimitarlos, se tengan en cuenta los casos excepcionales que ocurren, como por ejemplo que un pico esté parcialmente oculto por otro más abundante (coelución), o que un pico sea realmente ruido y tengamos la necesidad de usar criterios para identificarlo como ruido (o si es debido al lavado de la columna cromatográfica) y que no sea delimitado.

Para delimitar el pico cromatográfico, en este trabajo se han usado ventanas de

búsqueda de mínimos de tamaño fijo, cuando realmente sería necesario utilizar una ventana que dependa de la anchura del propio pico cromatográfico. Esto último es un factor clave ya que en los picos muy estrechos se puede usar una ventana de búsqueda también estrecha, ya que seguramente se encontrará rápido el mínimo. Por el contrario, en los picos muy anchos se tendrá que usar una ventana más grande, ya que es más posible que haya rizado en la cresta del pico (al durar más) y el uso de una ventana más grande reducirá el número de saltos para mover la ventana, reduciendo así el tiempo de cómputo de la delimitación.

Esta mejora será bastante difícil de llevar a cabo ya que los picos

cromatográficos pueden presentar multitud de variantes posibles, por lo que habrá que limitar la mejora a un compromiso entre velocidad (pocas comprobaciones

Page 151: Desarrollo de técnicas de clustering en datos de ...

135

pero más probabilidad de mala delimitación o falso positivo por ruido) y minimización de la probabilidad de error (más comprobaciones para una menor probabilidad de error a costa de un aumento en el tiempo de cómputo).

También se puede intentar contrarrestar el hecho de que varios compuestos

coeluyan en la misma masa, lo que provocaba que viésemos un pico cromatográfico parcialmente solapado con el otro, por lo que tenía problemas para ser delimitado. Una posibilidad para solucionar este problema es que, dado que los picos cromatográficos han de tener una forma aproximadamente gaussiana, se puede hacer un algoritmo que, en los casos en los que parezca que hay solapamiento entre dos picos, compare cada uno de los picos solapados con una gaussiana, de forma que si el algoritmo indica que es muy posible que el pico sea realmente dos picos solapados y con formas gaussianas distintas, entonces ya sabríamos cómo hacer la delimitación pues sabríamos que hay dos picos distintos ahí y en qué tiempo de retención coeluyen exactamente.

Cálculo del área cromatográfica más preciso.

La comparación entre áreas cromatográficas relativas para agrupar compuestos y el posible interés posterior para cuantificar la concentración de un compuesto en una muestra, hace que sea necesario obtener áreas lo más precisas posible, ya que en el cálculo actual el fondo de ruido contribuye al valor del área, lo que no es realmente correcto (aunque teniendo en cuenta el objetivo de este trabajo, se optó por un cálculo sencillo antes que un cálculo muy preciso).

Integrar los procesos entre sí para reducir el tiempo de computación. La implementación del método en código se ha realizado en varias partes muy

separadas entre sí, para poder corregir y cambiar cosas durante la implementación. Sin embargo, aunque didácticamente conviene separar los pasos para que queden lo más claros posibles y sean fácilmente actualizables, a la hora de implementar una herramienta definitiva, sería interesante integrar los procesos de realizar para aumentar la eficiencia computacional.

5.3. Método secundario. Identificación y supresión de artefactos químicos.

Este método se ha tenido que desarrollar al descubrirse la problemática de los

artefactos químicos en los resultados de la aplicación del método de detección y caracterización de compuestos en una muestra, por lo que no estaba previsto inicialmente en el trabajo. Sin embargo, se ha visto que los resultados son muy satisfactorios para ambas colecciones de muestras, ya que elimina artefactos químicos de muy alta intensidad en ambas colecciones de muestras sin ningún falso positivo. Uno de los grandes beneficios de este método, como se ha comentado, es que realiza la identificación y supresión de los artefactos químicos en un preprocesamiento rápido de los datos, lo que permite utilizar posteriormente los datos sin este ruido de muy alta intensidad, siendo una implementación novedosa y con unos resultados muy buenos.

Como línea futura de mejora, hay que tener en cuenta que únicamente se ha

comprobado con estas colecciones de muestras, por lo que hay que mejorarlo para darle un fundamento teórico más sólido y probarlo con otro tipo de muestras para darle más generalidad, comprobando también sus límites.

Page 152: Desarrollo de técnicas de clustering en datos de ...

136

5.4. Método secundario. Comparación y agrupación de compuestos para una colección de muestras.

Este método se desarrolló como una extensión del método de detección y

caracterización de compuestos en una muestra, ya que agrupar los compuestos y las huellas espectrométricas de una muestra en una tabla, nos permitía realizar operaciones de comparación entre muestras de una colección de una forma relativamente sencilla. Como se ha podido observar, los resultados de esta aplicación son buenos, aunque dependen directamente de lo bien que funcione el método de detección y caracterización de compuestos en cada muestra, por lo que cualquier mejora en dicho método contribuirá a mejorar esta aplicación. Por ejemplo, un cálculo más preciso del área cromatográfica hará que esta aplicación funcione directamente mejor.

El aspecto más importante de esta aplicación es la comparación entre dos

compuestos, cada uno de una muestra distinta, para averiguar si son equivalentes (mismo compuesto en distinta muestra), o no. A pesar de que se ha implementado esta comparación y ha dado unos resultados adecuados, para mejorar la aplicación habría que modelar muchos más casos de situaciones concretas, como el caso en que una huella espectrométrica tenga muy pocas entradas porque el compuesto sea poco abundante, o implementar un umbral de similitud de área cromatográfica que sea variable en función de la abundancia del pico cromatográfico.

Como se ha dicho, los resultados de este método dependen directamente del

método de detección y caracterización de compuestos, por lo que es más interesante optimizar primero dicho método y luego hacer los cambios necesarios en esta aplicación.

5.5. Conclusiones académicas. En esta sección se van a comentar las aportaciones que ha realizado este

trabajo a la formación académica del graduando.

Método científico.

El desarrollo e implementación de técnicas novedosas ha requerido un aprendizaje y compresión de la forma adecuada de documentar un problema, proponer posibles soluciones, implementarlas de forma práctica y evaluar los resultados, documentándolos adecuadamente e identificando las vías interesantes de mejora. Este aprendizaje ha contribuido positivamente a la formación académica, ya que puede ser aplicable a cualquier trabajo futuro.

Aplicación de conocimientos multidisciplinares. A lo largo del trabajo ha sido necesaria la aplicación de conocimientos de muchas

disciplinas distintas, algunos que ya habían sido adquiridos en la formación universitaria previa (tratamiento de señales digitales, sistemas LTI, instrumentación electrónica, programación, matemáticas, etc.) y otros que han tenido que ser adquiridos a lo largo del proyecto para poder comprender los procesos multidisciplinares que ocurrían (física y química de moléculas y fluidos, técnicas cromatográficas, etc.).

Este trabajo ha permitido adquirir perspectiva a la hora de enfrentarse a un

problema, para tratar de relacionar los conceptos multidisciplinares e intentar plasmar

Page 153: Desarrollo de técnicas de clustering en datos de ...

137

un problema de una disciplina desconocida (o que no se ha estudiado anteriormente) al campo de especialización propio, para poder utilizar técnicas previamente adquiridas para solucionar un problema.

Elaboración de documentos extensos, así como la planificación y

estructuración de los mismos. La realización de trabajos tan extensos como el que se ha realizado no se lleva a

cabo en ninguna asignatura de la carrera por el simple hecho de que no es viable, por lo que este trabajo ha servido como introducción a la estructuración y planificación de trabajos extensos. La mejora en este aspecto se ha observado de forma objetiva en la forma de redactar y estructurar las distintas partes del trabajo, por lo que se han adquirido destrezas y habilidades para enfrentarse a una redacción larga, formal y bien estructurada.

En cuanto a la planificación temporal, la estructura que se ha seguido en el trabajo

ha sido, en líneas generales, la siguiente: - Familiarizarse con el campo del análisis de compuesto mediante cromatografía

y espectrometría de masas, así como con los datos que se obtenían,

adquiriendo fluidez a la hora de manejarlos e implementado las formas de

representarlos, para comprenderlas y ver sus ventajas e inconvenientes. Este

paso se prolongó, aproximadamente, durante varias semanas del primer mes

del trabajo y ayudó significativamente a adquirir habilidades en el manejo de

las señales químicas HPLC-MS y a caracterizar dichas señales.

- Implementación del método principal. Esta parte ha sido la más difícil de

compatibilizar con las asignaturas cursadas, ya que al mismo tiempo que se

hacía este trabajo, había que dedicar muchas horas a otras asignaturas que,

en algunos casos, requerían demasiado trabajo autónomo, siendo muy difícil

mantener cierta continuidad a la hora de implementar el método. Incluyendo

todos los métodos desarrollados, las simulaciones experimentales,

evaluaciones y comprobaciones, además de la búsqueda de información de los

problemas que se presentaban conforme se desarrollaba el método, se podría

estimar el tiempo dedicado a esta parte como más de dos meses (casi tres), lo

que hace un total de más de tres meses entre esta parte y la anterior.

- Aunque la memoria se ha intentado desarrollar durante el transcurso del

trabajo, la mayor parte de la misma se ha completado en las últimas semanas,

incluyendo la documentación y contrastación de los resultados de los métodos,

lo que ha completado los, aproximadamente, cuatro meses que ha durado este

trabajo.

El transcurso del trabajo ha ayudado no sólo a estructurar el trabajo y a

planificarlo en el tiempo del que se dispone, sino también a compatibilizar la

ejecución concurrente de este trabajo con otros que se tenían que desarrollar al

mismo tiempo (por ejemplo, las asignaturas). Todo este proceso ha ayudado a

adquirir habilidades que servirán para cualquier actividad futura (estudio, trabajo,

etc.).

Page 154: Desarrollo de técnicas de clustering en datos de ...

138

Búsqueda bibliográfica.

A lo largo de este trabajo se han tenido que adquirir muchos conocimientos de

química analítica que han obligado a la búsqueda de bibliografía, tanto básica

como específica, de los campos de interés para el desarrollo del trabajo. La

variedad de la búsqueda ha generado en el alumno mayor habilidad a la hora de

buscar artículos, libros y documentos de interés, aprendiendo la importancia de

realizar “rastreos” bibliográficos para poder buscar información específica sobre

algunos temas.

Desarrollo personal y actitud crítica.

En el ámbito personal, este trabajo ha aportado una actitud mucho más crítica que la que se tenía antes de iniciar el trabajo, ya que se ha comprendido que, a la hora de enfrentarse a un problema de difícil solución, hay que buscar siempre soluciones evaluando el problema desde distintas perspectivas, no buscando únicamente la perspectiva sencilla, sino comparando siempre las distintas posibilidades para quedarse con la mejor solución posible. Por lo tanto, se ha comprendido que siempre es mejor evaluar detenidamente un problema antes de abordarlo, ya que es más importante que se aborde el problema de la forma adecuada en vez de dedicar mucho tiempo a abordarlo desde una forma que puede que no sea la más adecuada.

Además, se ha visto la importancia de hacer siempre una evaluación lo más

objetiva de los resultados y con una actitud siempre crítica, buscando siempre mejorar los métodos para obtener un mejor resultado pero sin perder de vista el objetivo que se persigue.

Se puede concluir en que este trabajo ha aportado muchas habilidades nuevas

tanto a nivel profesional como personal, que han contribuido muy positivamente a la

formación profesional y podrán ser aplicables en cualquier desempeño laboral futuro.

Page 155: Desarrollo de técnicas de clustering en datos de ...

139

6. Bibliografía. 1. J. Throck Watson, O. David Sparkamn, (2007). Introduction to Mass Spectrometry:

Instrumentation, Applications, and Strategies for Data Interpretation. 4 th. J. Wiley & Sons, ed., New York.

2. Gary Siuzdak, (1996). Mass Spectrometry for Biotechnology. California, USA: Academic Press.

3. Andrea Weston, Phyllis R. Brown, (1997). High Performance Liquid

Chromatography & Capillary Electrophoresis: Principles and Practices. California, USA: Academic Press.

4. Kenneth A. Rubinson, Judith F. Rubinson, (2001). Análisis Instrumental. Madrid: Pearson Educación, S.A.

5. Shaoping Fu, A. Segura-Carretero, D. Arráez-Román, J. A. Menéndez, A. De La Torre, A. Fernández-Gutiérrez. (2003). Tentative Characterization of Novel Phenolic Compounds in Extra Virgin Olive Oils by Rapid-Resolution Liquid Chromatography Coupled with Mass Spectrometry. Journal of Agricultural and Food Chemistry, 57, pp. 11140-11147.

6. Shaoping Fu, et al. (2009). Characterization of isomers of oleuropein aglycon in

olive oils by rapid-resolution liquid chromatography couple to electrospray time-of-flight and ion trap tandem mass spectrometry. Rapid Communications in Mass Spectrometry, 23, pp. 51-59.

7. C. Roldán, Á. de la Torre, S. Mota, A. Morales-Soto, J. Menéndez, A. Segura-

Carretero. (2013). Identification of active compounds in vegetal extracts based on correlation between activity and HPLC–MS data. Food Chesmitry, 136, pp. 392-399.

8. R. García-Villalba, A. Carrasco-Pancorbo, C. Oliveras-Ferraros, A. Vázquez-Martín,

J. A. Menéndez, A. Segura-Carretero, A. Fernández-Gutiérrez. (2010). Characterization and quantification of phenolic compounds of extra-virgin olive oils with anticancer properties by a rapid and resolutive LC-ESI-TOF MS method. Journal of Pharmaceutical and Biomedical Analysis, 51, pp. 416-429.

9. Anestis Antoniadis, Jérémie Bigot, Sophie Lambert-Lacroix. (2010). Peaks

detection and alignment for mass spectrometry data. Journal de la Société Française de Statistique, vol. 151 No. 1.

10. Curtis A. Hastings, Scott M. Norton, Sushmita Roy. (2002). New algorithms for

processing and peak detection in liquid chromatography/mass spectrometry data. Rapid Communications in Mass Spectrometry, 16, pp. 462-467.

11. A. de la Torre, S. Mota, C. Roldán, S. Fernández-Arroyo, A. Segura-Carretero, A.

Fernández-Gutiérrez. Algoritmo de reducción del ruido en datos de espectrometría de masas. VII Colloquim Chemiometricum Mediterraneum. Departamento de Teoría de la Señal, Telemática y Comunicaciones, Universidad de Granada.

12. A. de la Torre, et al. Alineamiento automático de datos en espectrometría de

masas basado en descenso de gradiente. VII Colloquim Chemiometricum Mediterraneum. Departamento de Teoría de la Señal, Telemática y

Page 156: Desarrollo de técnicas de clustering en datos de ...

140

Comunicaciones, Universidad de Granada. 13. S. Mota, et al. Procesamiento comparativo de datos HPLC-MS orientado a la

identificación de compuestos bioactivos en muestras complejas. VII Colloquim Chemiometricum Mediterraneum. Departamento de Teoría de la Señal, Telemática y Comunicaciones, Universidad de Granada.

14. A. de la Torre, et al. Desreplicación basada en la correlación entre datos

espectrométricos y bioactividad para la identificación de compuestos bioactivos en extractos vegetales. VII Colloquim Chemiometricum Mediterraneum. Departamento de Teoría de la Señal, Telemática y Comunicaciones, Universidad de Granada.

15. J. Lozano-Sánchez, A. Segura-Carretero, J. A. Menéndez, C. Oliveras-Ferraros, L.

Cerretani, A. Fernández-Gutiérrez. (2010). Prediction of extra virgin olive oil varieties through their phenolic profile. Potential cytotoxic activity against human breast cancer cells. Journal of Agricultural and Food Chemistry, 58, pp. 9942-9955.

16. Fernández-Panchón, et al. (2008). Antioxidant activity of phenolic compounds: from

in vitro results to in vivo evidence. Critical Reviews in Food Science and Nutrition, 48(7), pp. 649-671.

17. García-Lafuente, et al. (2009). Flavonoids as anti-inflammatory agents: implications

in cancer and cardiovascular disease. Inflammation Research, 58(9), pp. 537-552.

18. Rosa Mª Quirantes Piné. (2012). Caracterización y estudios metabolómicos de compuestos fenólicos bioactivos mediante técnicas separativas acopladas a espectrometría de masas. Tesis doctoral. Universidad de Granada.

19. Ihsam Iswaldi. (2012). Caracterización de compuestos fenólicos mediante técnicas

separativas acopladas a espectrometría de masas de extractos vegetales con bioactividad demostrada. Tesis doctoral. Departamento de Química Analítica. Universidad de Granada.

20. Mª Isabel Borrás Linares. (2013). Uso de técnicas separativas acopladas a

espectrometría de masas de alta resolución para estudios metabolómicos de nutracéuticos y matrices vegetales. Tesis doctoral. Departamento de Química Analítica. Universidad de Granada.

21. Chao Yang, Zengyou He, Weichuan Yu. (2009). Comparison of public peak

detection algorithms for MALDI mass spectrometry data analysis. BMC Bioinformatics, 10:4.

Page 157: Desarrollo de técnicas de clustering en datos de ...

141

7. Apéndices. 7.1. Apéndice 1. Compuestos detectados y caracterizados sobre la

muestra 15 de la colección de matrices de estándares sin artefactos químicos. Los siguientes resultados han sido obtenidos con un umbral alto de intensidad

de 2000 cuentas, y el bajo de 80 cuentas. El umbral de intensidad utilizado en la búsqueda de compuestos continuos ha sido de 500 muestras. ---------------------------- COMPUESTOS DE LA MUESTRA ---------------------------- - Compuesto --- Tiempo de retención (s) --- Masa/carga (Da) --- Área (50%) --Área(80%) 1 799.5 463.089 1035012 677852 2 744.0 609.148 533564 350664 3 498.8 191.056 441100 246900 4 373.5 595.133 349856 160384 5 634.9 179.035 341868 200556 6 599.2 191.056 60144 47660 7 412.2 463.088 49368 30544

................... Compuesto 1 .......................

+++++ Características Ion principal +++++ - Tiempo - Masa - Desviación estándar tiempo (s) - Desviación estándar masa (mDa) - 799.543 463.089 1.991 0.65 - Área al 50% - Área al 80% - Número de secundarias - 1035012 677852 42 +++++ Iones principal y secundarios +++++ ----- Número ----- Masa --- Área relativa (%) al 50% --- Área relativa (%) al 80% --- 1 463.089 100.00 100.00 2 464.092 26.25 25.90 3 465.094 4.75 4.33 4 531.073 3.87 3.45 5 300.026 2.25 2.07 6 547.042 2.49 1.13 7 301.034 1.44 1.13 8 302.037 0.25 0.09 9 384.988 -1.00 0.37 10 466.097 0.99 0.57 11 467.101 0.25 0.21 12 517.013 -1.00 0.17 13 521.043 0.80 0.84 14 523.044 0.36 0.34 15 532.073 1.13 0.40 16 533.059 1.14 0.94 17 534.060 0.28 0.20 18 548.051 0.68 0.82 19 549.049 0.15 0.18 20 553.046 0.76 0.78 21 561.049 0.17 0.10 22 562.007 0.52 0.66 23 563.014 1.42 1.29 24 564.020 0.46 0.33 25 565.008 0.29 0.36 26 575.099 0.42 0.33 27 579.060 0.51 0.37 28 583.033 0.40 0.36 29 585.017 0.19 0.22 30 593.045 0.92 0.87 31 599.053 0.46 0.50 32 601.048 -1.00 0.24 33 605.013 0.21 0.21 34 615.029 1.03 0.67 35 616.029 -1.00 0.33 36 617.025 0.20 0.23 37 621.052 0.37 0.30 38 630.998 -1.00 0.24 39 646.973 0.21 0.28 40 667.043 -1.00 0.15 41 671.106 0.19 0.15 42 927.183 0.49 0.26 43 928.190 0.39 0.51

................... Compuesto 2 .......................

+++++ Características Ion principal +++++ - Tiempo - Masa - Desviación estándar tiempo (s) - Desviación estándar masa (mDa) - 744.046 609.148 2.201 0.63 - Área al 50% - Área al 80% - Número de secundarias - 533564 350664 27

Page 158: Desarrollo de técnicas de clustering en datos de ...

142

+++++ Iones principal y secundarios +++++ ----- Número ----- Masa --- Área relativa (%) al 50% --- Área relativa (%) al 80% --- 1 609.148 100.00 100.00 2 610.152 28.91 38.84 3 611.154 7.84 7.12 4 677.134 7.92 5.55 5 612.156 1.75 2.02 6 663.071 -1.00 1.31 7 664.070 -1.00 -1.00 8 667.105 0.86 1.19 9 669.109 -1.00 0.30 10 678.138 3.15 2.14 11 679.123 1.88 1.55 12 680.121 0.46 0.57 13 681.122 -1.00 0.27 14 693.106 1.42 1.71 15 694.110 0.46 0.32 16 699.109 0.80 0.74 17 704.069 -1.00 0.29 18 707.117 0.73 0.91 19 708.079 0.71 0.86 20 709.078 0.60 0.55 21 729.097 0.44 0.54 22 731.059 0.43 0.28 23 739.108 1.59 1.37 24 740.117 -1.00 0.70 25 745.116 0.66 0.62 26 761.092 0.29 0.44 27 762.076 0.48 0.56 28 795.184 0.66 0.79

................... Compuesto 3 .......................

+++++ Características Ion principal +++++ - Tiempo - Masa - Desviación estándar tiempo (s) - Desviación estándar masa (mDa) - 498.837 191.056 2.309 0.69 - Área al 50% - Área al 80% - Número de secundarias - 441100 246900 41 +++++ Iones principal y secundarios +++++ ----- Número ----- Masa --- Área relativa (%) al 50% --- Área relativa (%) al 80% --- 1 191.056 100.00 100.00 2 375.068 28.75 33.35 3 353.086 14.14 12.62 4 376.071 6.36 8.79 5 192.059 8.50 8.51 6 437.039 6.89 7.37 7 443.052 3.67 2.47 8 161.023 2.83 2.86 9 173.045 0.42 0.40 10 193.061 1.43 1.75 11 354.089 2.32 2.10 12 355.092 0.71 0.85 13 377.073 1.57 1.02 14 391.043 2.56 1.25 15 407.006 2.36 1.72 16 408.012 0.97 0.63 17 411.041 1.25 2.05 18 413.019 -1.00 0.90 19 421.063 2.20 1.96 20 422.064 0.72 0.73 21 423.049 2.97 2.30 22 424.055 0.87 0.97 23 427.013 0.64 0.48 24 433.021 0.44 0.49 25 438.047 2.57 3.25 26 444.052 0.97 1.22 27 452.002 0.89 0.76 28 454.026 0.33 0.30 29 459.019 1.22 1.10 30 460.033 -1.00 0.65 31 473.033 1.36 1.30 32 474.993 1.19 1.79 33 481.062 0.48 0.55 34 489.016 0.42 0.64 35 505.022 2.81 3.16 36 511.032 0.87 1.06 37 520.990 0.84 0.78 38 542.977 0.66 0.44 39 573.011 1.05 1.01 40 707.183 2.37 2.63 41 708.181 1.12 0.74 42 729.160 2.47 3.08

................... Compuesto 4 .......................

+++++ Características Ion principal +++++ - Tiempo - Masa - Desviación estándar tiempo (s) - Desviación estándar masa (mDa) -

Page 159: Desarrollo de técnicas de clustering en datos de ...

143

373.502 595.133 5.168 1.25 - Área al 50% - Área al 80% - Número de secundarias - 349856 160384 10 +++++ Iones principal y secundarios +++++ ----- Número ----- Masa --- Área relativa (%) al 50% --- Área relativa (%) al 80% --- 1 595.133 100.00 100.00 2 596.136 32.67 33.91 3 613.143 16.61 21.32 4 597.138 8.67 6.98 5 598.142 2.19 2.86 6 614.149 4.51 4.16 7 663.116 6.82 7.25 8 664.121 2.74 1.96 9 665.110 1.56 1.45 10 679.087 1.38 0.92 11 694.051 1.34 1.46

................... Compuesto 5 .......................

+++++ Características Ion principal +++++ - Tiempo - Masa - Desviación estándar tiempo (s) - Desviación estándar masa (mDa) - 634.884 179.035 2.084 0.44 - Área al 50% - Área al 80% - Número de secundarias - 341868 200556 42 +++++ Iones principal y secundarios +++++ ----- Número ----- Masa --- Área relativa (%) al 50% --- Área relativa (%) al 80% --- 1 179.035 100.00 100.00 2 135.046 22.89 25.34 3 262.986 12.32 11.33 4 180.039 9.94 10.30 5 134.038 2.05 2.16 6 136.050 1.89 1.76 7 181.039 1.91 1.47 8 201.013 1.06 1.37 9 203.019 1.01 0.68 10 216.997 0.47 0.62 11 232.971 0.55 0.47 12 233.962 1.21 0.31 13 234.972 4.58 4.35 14 236.980 1.00 0.80 15 247.012 4.30 2.00 16 248.009 1.27 1.22 17 263.991 1.75 1.01 18 268.933 1.61 1.37 19 278.956 1.96 1.25 20 295.002 3.18 3.42 21 298.973 0.60 0.54 22 330.971 1.52 1.23 23 341.008 1.30 1.22 24 359.077 2.22 2.71 25 376.968 0.73 0.78 26 381.053 4.24 6.25 27 382.055 0.87 0.90 28 383.034 4.41 5.13 29 384.036 1.05 0.43 30 397.022 2.36 2.72 31 403.021 0.45 0.42 32 411.988 3.21 2.09 33 412.993 3.74 2.90 34 413.997 1.07 0.98 35 414.986 -1.00 0.29 36 425.018 -1.00 0.61 37 443.027 1.96 2.40 38 449.040 0.74 0.96 39 465.011 1.04 1.07 40 466.010 0.42 0.50 41 502.967 0.58 0.77 42 526.979 0.51 0.66 43 577.064 0.54 0.38

................... Compuesto 6 .......................

+++++ Características Ion principal +++++ - Tiempo - Masa - Desviación estándar tiempo (s) - Desviación estándar masa (mDa) - 599.203 191.056 1.847 0.64 - Área al 50% - Área al 80% - Número de secundarias - 60144 47660 9 +++++ Iones principal y secundarios +++++ ----- Número ----- Masa --- Área relativa (%) al 50% --- Área relativa (%) al 80% --- 1 191.056 100.00 100.00 2 375.070 40.44 22.56 3 192.058 12.29 7.81 4 193.063 -1.00 1.62 5 353.086 12.88 10.79 6 376.070 7.96 5.06 7 421.061 3.70 3.63 8 423.048 -1.00 3.64

Page 160: Desarrollo de técnicas de clustering en datos de ...

144

9 437.040 13.30 10.05 10 443.054 4.91 5.40

................... Compuesto 7 .......................

+++++ Características Ion principal +++++ - Tiempo - Masa - Desviación estándar tiempo (s) - Desviación estándar masa (mDa) - 412.183 463.088 4.896 2.13 - Área al 50% - Área al 80% - Número de secundarias - 49368 30544 3 +++++ Iones principal y secundarios +++++ ----- Número ----- Masa --- Área relativa (%) al 50% --- Área relativa (%) al 80% --- 1 463.088 100.00 100.00 2 464.091 36.02 21.05 3 465.098 9.76 8.81 4 481.098 23.37 15.79

Page 161: Desarrollo de técnicas de clustering en datos de ...

145

7.2. Apéndice 2. Cromatogramas de ion extraído de las masas en las que se ha detectado la presencia de un artefacto químico.

- Iones en la masa/carga 59,012 Da.

- Ion en la masa/carga 89,023 Da.

200 400 600 800 1000 1200 1400 16002000

3000

4000

5000

6000

7000

8000

9000

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (59.012 +- 0.0250) Da

200 400 600 800 1000 1200 1400 16000

1000

2000

3000

4000

5000

6000

7000

8000

9000

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (89.023 +- 0.0250) Da

Page 162: Desarrollo de técnicas de clustering en datos de ...

146

- Ion en la masa/carga 96,962 Da.

- Ion en la masa/carga 116,931 Da.

200 400 600 800 1000 1200 1400 16000

0.5

1

1.5

2

2.5

3x 10

4

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (96.962 +- 0.0250) Da

200 400 600 800 1000 1200 1400 16000

0.5

1

1.5

2

2.5

3

3.5x 10

4

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (116.931 +- 0.0250) Da

Page 163: Desarrollo de técnicas de clustering en datos de ...

147

- Ion en la masa/carga 128,037 Da.

- Ion en la masa/carga 188,956 Da.

200 400 600 800 1000 1200 1400 16000

500

1000

1500

2000

2500

3000

3500

4000

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (128.037 +- 0.0250) Da

200 400 600 800 1000 1200 14000

500

1000

1500

2000

2500

3000

Tiempo (s)

inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (188.956 +- 0.1250) Da

Page 164: Desarrollo de técnicas de clustering en datos de ...

148

- Ion en la masa/carga 157,018 Da.

- Ion en la masa/carga 173,015 Da.

200 400 600 800 1000 1200 1400 16000

500

1000

1500

2000

2500

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (157.018 +- 0.0250) Da

200 400 600 800 1000 1200 1400 16000

500

1000

1500

2000

2500

3000

3500

4000

4500

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (173.015 +- 0.0250) Da

Page 165: Desarrollo de técnicas de clustering en datos de ...

149

- Ion en la masa/carga 174,994 Da.

- Ion en la masa/carga 186,993 Da.

200 400 600 800 1000 1200 1400 16000

1000

2000

3000

4000

5000

6000

7000

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (174.994 +- 0.0250) Da

200 400 600 800 1000 1200 1400 16000

500

1000

1500

2000

2500

3000

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (186.993 +- 0.0250) Da

Page 166: Desarrollo de técnicas de clustering en datos de ...

150

- Ion en la masa/carga 194,929 Da.

- Ion en la masa/carga 201,028 Da.

200 400 600 800 1000 1200 1400 16000

500

1000

1500

2000

2500

3000

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (194.929 +- 0.0250) Da

200 400 600 800 1000 1200 1400 16001000

2000

3000

4000

5000

6000

7000

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (201.028 +- 0.0250) Da

Page 167: Desarrollo de técnicas de clustering en datos de ...

151

- Ion en la masa/carga 202,028 Da.

- Ion en la masa/carga 203,018 Da.

200 400 600 800 1000 1200 1400 16000

500

1000

1500

2000

2500

3000

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (202.028 +- 0.0250) Da

200 400 600 800 1000 1200 1400 16000

500

1000

1500

2000

2500

3000

3500

4000

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (203.018 +- 0.0250) Da

Page 168: Desarrollo de técnicas de clustering en datos de ...

152

- Ion en la masa/carga 217,005 Da.

- Ion en la masa/carga 218,009 Da.

200 400 600 800 1000 1200 1400 16000.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2x 10

4

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (217.005 +- 0.0250) Da

200 400 600 800 1000 1200 1400 16000

500

1000

1500

2000

2500

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (218.009 +- 0.0250) Da

Page 169: Desarrollo de técnicas de clustering en datos de ...

153

- Ion en la masa/carga 218,923 Da.

- Ion en la masa/carga 221,024 Da.

200 400 600 800 1000 1200 1400 16000

500

1000

1500

2000

2500

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (218.923 +- 0.0250) Da

200 400 600 800 1000 1200 1400 16000

1000

2000

3000

4000

5000

6000

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (221.024 +- 0.0250) Da

Page 170: Desarrollo de técnicas de clustering en datos de ...

154

- Ion en la masa/carga 223,024 Da.

- Ion en la masa/carga 232,038 Da.

200 400 600 800 1000 1200 14000

500

1000

1500

2000

2500

3000

Tiempo (s)

inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (223.024 +- 0.1250) Da

200 400 600 800 1000 1200 1400 16000

500

1000

1500

2000

2500

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (232.038 +- 0.0250) Da

Page 171: Desarrollo de técnicas de clustering en datos de ...

155

- Ion en la masa/carga 232,991 Da.

- Ion en la masa/carga 240,971Da.

200 400 600 800 1000 1200 1400 16000

500

1000

1500

2000

2500

3000

3500

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (232.991 +- 0.0250) Da

200 400 600 800 1000 1200 1400 16000

500

1000

1500

2000

2500

3000

3500

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (240.971 +- 0.0250) Da

Page 172: Desarrollo de técnicas de clustering en datos de ...

156

- Ion en la masa/carga 242,969 Da.

- Ion en la masa/carga 247,016 Da.

200 400 600 800 1000 1200 1400 16000

500

1000

1500

2000

2500

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (242.969 +- 0.0250) Da

200 400 600 800 1000 1200 1400 16000

1000

2000

3000

4000

5000

6000

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (247.016 +- 0.0250) Da

Page 173: Desarrollo de técnicas de clustering en datos de ...

157

- Ion en la masa/carga 255,234 Da.

- Ion en la masa/carga 263,037 Da.

200 400 600 800 1000 1200 14000

1000

2000

3000

4000

5000

6000

7000

Tiempo (s)

inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (255.234 +- 0.1250) Da

200 400 600 800 1000 1200 1400 16000

1000

2000

3000

4000

5000

6000

7000

8000

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (263.037 +- 0.0250) Da

Page 174: Desarrollo de técnicas de clustering en datos de ...

158

- Ion en la masa/carga 291,991 Da.

- Ion en la masa/carga 359,018 Da.

200 400 600 800 1000 1200 1400 16000

1000

2000

3000

4000

5000

6000

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (291.991 +- 0.0250) Da

200 400 600 800 1000 1200 1400 16000

500

1000

1500

2000

2500

3000

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (359.018 +- 0.0250) Da

Page 175: Desarrollo de técnicas de clustering en datos de ...

159

- Ion en la masa/carga 374,994 Da.

200 400 600 800 1000 1200 1400 16000

500

1000

1500

2000

2500

3000

3500

4000

4500

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (374.994 +- 0.0250) Da

Page 176: Desarrollo de técnicas de clustering en datos de ...

160

7.3. Apéndice 3. Picos cromatográficos principales de cada compuesto detectado en la muestra 1 de la colección de aceites de oliva. Los compuestos han sido detectados y caracterizados con un umbral de

intensidad alto de 8.000 cuentas. Para ocupar menos espacio y que se vean mejor los picos cromatográficos, éstos se han representado en un cromatograma de ion extraído centrado en su masa, introduciendo en ese cromatograma todos los picos cromatográficos que tuviesen una masa parecida. Cada pico cromatográfico principal detectado se distingue del resto por tener un color diferente, mientras que lo que se vea de color azul, serán las entradas del cromatograma que no corresponden a ningún pico principal, ya sea porque se considera ruido, o porque se ha considerado como una especie isotópica secundaria de una de las especies isotópicas principales.

0 5 10 15 20 250

1

2

3

4

5

6

7x 10

5

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (377.128 +- 0.0250) Da

Cromatograma ion extraído

Tiempo: 1245.770 s (20.76 min) Masa: 377.128 (Da)

Tiempo: 1133.145 s (18.89 min) Masa: 377.127 (Da)

Tiempo: 889.115 s (14.82 min) Masa: 377.127 (Da)

Tiempo: 1074.869 s (17.91 min) Masa: 377.127 (Da)

Tiempo: 1294.581 s (21.58 min) Masa: 377.127 (Da)

Tiempo: 1047.044 s (17.45 min) Masa: 377.128 (Da)

Tiempo: 975.558 s (16.26 min) Masa: 377.127 (Da)

Tiempo: 848.365 s (14.14 min) Masa: 377.127 (Da)

Tiempo: 1315.032 s (21.92 min) Masa: 377.127 (Da)

Tiempo: 861.613 s (14.36 min) Masa: 377.126 (Da)

Tiempo: 760.632 s (12.68 min) Masa: 377.126 (Da)

Tiempo: 757.462 s (12.62 min) Masa: 377.126 (Da)

Tiempo: 1148.099 s (19.13 min) Masa: 377.127 (Da)

Tiempo: 1026.004 s (17.10 min) Masa: 377.128 (Da)

0 5 10 15 20 250

1

2

3

4

5

6

7

8

9

10x 10

4

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (319.121 +- 0.0250) Da

Cromatograma ion extraído

Tiempo: 912.081 s (15.20 min) Masa: 319.121 (Da)

Tiempo: 971.240 s (16.19 min) Masa: 319.120 (Da)

Tiempo: 868.618 s (14.48 min) Masa: 319.121 (Da)

Page 177: Desarrollo de técnicas de clustering en datos de ...

161

0 5 10 15 20 250

1

2

3

4

5

6

7x 10

4

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (183.068 +- 0.0250) Da

Cromatograma ion extraído

Tiempo: 1071.542 s (17.86 min) Masa: 183.068 (Da)

Tiempo: 834.428 s (13.91 min) Masa: 183.068 (Da)

0 5 10 15 20 250

0.5

1

1.5

2

2.5x 10

5

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (285.043 +- 0.0250) Da

Cromatograma ion extraído

Tiempo: 957.982 s (15.97 min) Masa: 285.043 (Da)

0 5 10 15 20 250

1

2

3

4

5

6

7

8x 10

4

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (139.007 +- 0.0250) Da

Cromatograma ion extraído

Tiempo: 805.116 s (13.42 min) Masa: 139.007 (Da)

Tiempo: 766.244 s (12.77 min) Masa: 139.007 (Da)

Tiempo: 742.355 s (12.37 min) Masa: 139.007 (Da)

Page 178: Desarrollo de técnicas de clustering en datos de ...

162

0 5 10 15 20 250

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2x 10

4

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (320.124 +- 0.0250) Da

Cromatograma ion extraído

Tiempo: 890.731 s (14.85 min) Masa: 320.124 (Da)

0 5 10 15 20 250

2

4

6

8

10

12

14

16

18x 10

4

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (415.142 +- 0.0250) Da

Cromatograma ion extraído

Tiempo: 1040.690 s (17.34 min) Masa: 415.142 (Da)

0 5 10 15 20 250

0.5

1

1.5

2

2.5

3

3.5

4

4.5x 10

4

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (339.203 +- 0.0250) Da

Cromatograma ion extraído

Tiempo: 1288.406 s (21.47 min) Masa: 339.203 (Da)

Tiempo: 1244.805 s (20.75 min) Masa: 339.203 (Da)

Page 179: Desarrollo de técnicas de clustering en datos de ...

163

0 5 10 15 20 250

5

10

15x 10

4

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (153.058 +- 0.0250) Da

Cromatograma ion extraído

Tiempo: 387.684 s (6.46 min) Masa: 153.058 (Da)

0 5 10 15 20 250

0.5

1

1.5

2

2.5

3

3.5

4

4.5x 10

4

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (325.186 +- 0.0250) Da

Cromatograma ion extraído

Tiempo: 1275.184 s (21.25 min) Masa: 325.186 (Da)

Tiempo: 1101.261 s (18.35 min) Masa: 325.185 (Da)

0 5 10 15 20 250

0.5

1

1.5

2

2.5

3

3.5

4x 10

4

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (349.132 +- 0.0250) Da

Cromatograma ion extraído

Tiempo: 784.619 s (13.08 min) Masa: 349.132 (Da)

Page 180: Desarrollo de técnicas de clustering en datos de ...

164

0 5 10 15 20 250

1

2

3

4

5

6

7

8

9

10x 10

4

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (269.046 +- 0.0250) Da

Cromatograma ion extraído

Tiempo: 1122.183 s (18.70 min) Masa: 269.046 (Da)

0 5 10 15 20 250

1

2

3

4

5

6x 10

4

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (213.078 +- 0.0250) Da

Cromatograma ion extraído

Tiempo: 1048.903 s (17.48 min) Masa: 213.078 (Da)

Tiempo: 765.115 s (12.75 min) Masa: 213.078 (Da)

Tiempo: 810.875 s (13.51 min) Masa: 213.078 (Da)

0 5 10 15 20 250

2

4

6

8

10

12

14

16

18x 10

4

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (275.092 +- 0.0250) Da

Cromatograma ion extraído

Tiempo: 1135.762 s (18.93 min) Masa: 275.092 (Da)

Tiempo: 851.780 s (14.20 min) Masa: 275.093 (Da)

Tiempo: 1001.424 s (16.69 min) Masa: 275.092 (Da)

Tiempo: 1213.623 s (20.23 min) Masa: 275.092 (Da)

Tiempo: 1179.744 s (19.66 min) Masa: 275.092 (Da)

Tiempo: 1105.533 s (18.43 min) Masa: 275.090 (Da)

Tiempo: 828.998 s (13.82 min) Masa: 275.092 (Da)

Page 181: Desarrollo de técnicas de clustering en datos de ...

165

0 5 10 15 20 250

1

2

3

4

5

6x 10

4

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (361.133 +- 0.0250) Da

Cromatograma ion extraído

Tiempo: 1237.723 s (20.63 min) Masa: 361.133 (Da)

Tiempo: 989.663 s (16.49 min) Masa: 361.132 (Da)

Tiempo: 1150.278 s (19.17 min) Masa: 361.132 (Da)

Tiempo: 1260.718 s (21.01 min) Masa: 361.132 (Da)

0 5 10 15 20 250

0.5

1

1.5

2

2.5

3

3.5

4

4.5x 10

4

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (95.049 +- 0.0250) Da

Cromatograma ion extraído

Tiempo: 914.925 s (15.25 min) Masa: 95.049 (Da)

Tiempo: 886.070 s (14.77 min) Masa: 95.049 (Da)

Tiempo: 793.553 s (13.23 min) Masa: 95.049 (Da)

Tiempo: 849.936 s (14.17 min) Masa: 95.049 (Da)

0 5 10 15 20 250

1

2

3

4

5

6x 10

4

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (375.113 +- 0.0250) Da

Cromatograma ion extraído

Tiempo: 1252.908 s (20.88 min) Masa: 375.113 (Da)

Page 182: Desarrollo de técnicas de clustering en datos de ...

166

0 5 10 15 20 250

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2x 10

5

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (307.084 +- 0.0250) Da

Cromatograma ion extraído

Tiempo: 1031.751 s (17.20 min) Masa: 307.084 (Da)

0 5 10 15 20 250

0.5

1

1.5

2

2.5

3

3.5x 10

4

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (195.068 +- 0.0250) Da

Cromatograma ion extraído

Tiempo: 928.519 s (15.48 min) Masa: 195.068 (Da)

Tiempo: 880.752 s (14.68 min) Masa: 195.067 (Da)

Tiempo: 842.187 s (14.04 min) Masa: 195.068 (Da)

0 5 10 15 20 250

0.5

1

1.5

2

2.5

3

3.5

4

4.5x 10

4

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (335.116 +- 0.0250) Da

Cromatograma ion extraído

Tiempo: 832.983 s (13.88 min) Masa: 335.116 (Da)

Page 183: Desarrollo de técnicas de clustering en datos de ...

167

0 5 10 15 20 250

0.5

1

1.5

2

2.5

3

3.5

4x 10

4

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (241.073 +- 0.0250) Da

Cromatograma ion extraído

Tiempo: 980.661 s (16.34 min) Masa: 241.073 (Da)

Tiempo: 770.609 s (12.84 min) Masa: 241.073 (Da)

Tiempo: 1157.355 s (19.29 min) Masa: 241.073 (Da)

0 5 10 15 20 250

0.5

1

1.5

2

2.5

3

3.5

4x 10

4

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (291.089 +- 0.0250) Da

Cromatograma ion extraído

Tiempo: 1278.216 s (21.30 min) Masa: 291.089 (Da)

0 5 10 15 20 250

0.5

1

1.5

2

2.5

3

3.5

4x 10

4

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (357.137 +- 0.0250) Da

Cromatograma ion extraído

Tiempo: 1002.750 s (16.71 min) Masa: 357.137 (Da)

Page 184: Desarrollo de técnicas de clustering en datos de ...

168

0 5 10 15 20 250

0.5

1

1.5

2

2.5

3

3.5

4x 10

4

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (393.122 +- 0.0250) Da

Cromatograma ion extraído

Tiempo: 912.361 s (15.21 min) Masa: 393.122 (Da)

Tiempo: 889.446 s (14.82 min) Masa: 393.122 (Da)

0 5 10 15 20 250

0.5

1

1.5

2

2.5

3x 10

4

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (137.062 +- 0.0250) Da

Cromatograma ion extraído

Tiempo: 490.253 s (8.17 min) Masa: 137.062 (Da)

0 5 10 15 20 250

0.5

1

1.5

2

2.5x 10

4

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (187.099 +- 0.0250) Da

Cromatograma ion extraído

Tiempo: 792.562 s (13.21 min) Masa: 187.099 (Da)

Page 185: Desarrollo de técnicas de clustering en datos de ...

169

0 5 10 15 20 250

0.5

1

1.5

2

2.5

3x 10

4

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (391.143 +- 0.0250) Da

Cromatograma ion extraído

Tiempo: 1020.846 s (17.01 min) Masa: 391.143 (Da)

Tiempo: 1300.225 s (21.67 min) Masa: 391.143 (Da)

Tiempo: 960.279 s (16.00 min) Masa: 391.143 (Da)

Tiempo: 1211.474 s (20.19 min) Masa: 391.142 (Da)

0 5 10 15 20 250

5000

10000

15000

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (185.048 +- 0.0250) Da

Cromatograma ion extraído

Tiempo: 925.684 s (15.43 min) Masa: 185.048 (Da)

0 5 10 15 20 250

0.5

1

1.5

2

2.5

3x 10

4

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (343.263 +- 0.0250) Da

Cromatograma ion extraído

Tiempo: 1334.202 s (22.24 min) Masa: 343.263 (Da)

Page 186: Desarrollo de técnicas de clustering en datos de ...

170

0 5 10 15 20 250

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2x 10

4

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (242.177 +- 0.0250) Da

Cromatograma ion extraído

Tiempo: 1149.320 s (19.16 min) Masa: 242.177 (Da)

0 5 10 15 20 250

2000

4000

6000

8000

10000

12000

14000

16000

18000

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (417.157 +- 0.0250) Da

Cromatograma ion extraído

Tiempo: 944.077 s (15.73 min) Masa: 417.157 (Da)

0 5 10 15 20 250

5000

10000

15000

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (315.127 +- 0.0250) Da

Cromatograma ion extraído

Tiempo: 1343.125 s (22.39 min) Masa: 315.127 (Da)

Page 187: Desarrollo de técnicas de clustering en datos de ...

171

0 5 10 15 20 250

2000

4000

6000

8000

10000

12000

14000

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (299.057 +- 0.0250) Da

Cromatograma ion extraído

Tiempo: 1159.049 s (19.32 min) Masa: 299.057 (Da)

0 5 10 15 20 250

2000

4000

6000

8000

10000

12000

14000

16000

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (185.118 +- 0.0250) Da

Cromatograma ion extraído

Tiempo: 880.923 s (14.68 min) Masa: 185.118 (Da)

0 5 10 15 20 250

0.5

1

1.5

2

2.5

3x 10

4

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (253.219 +- 0.0250) Da

Cromatograma ion extraído

Tiempo: 1335.231 s (22.25 min) Masa: 253.219 (Da)

Tiempo: 1307.854 s (21.80 min) Masa: 253.218 (Da)

Page 188: Desarrollo de técnicas de clustering en datos de ...

172

0 5 10 15 20 250

0.5

1

1.5

2

2.5

3

3.5

4

4.5x 10

4

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (311.171 +- 0.0250) Da

Cromatograma ion extraído

Tiempo: 1280.269 s (21.34 min) Masa: 311.171 (Da)

Tiempo: 1174.402 s (19.57 min) Masa: 311.170 (Da)

0 5 10 15 20 250

0.5

1

1.5

2

2.5

3

3.5x 10

4

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (265.150 +- 0.0250) Da

Cromatograma ion extraído

Tiempo: 1265.637 s (21.09 min) Masa: 265.150 (Da)

0 5 10 15 20 250

1

2

3

4

5

6

7

8x 10

4

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (149.026 +- 0.0250) Da

Cromatograma ion extraído

Tiempo: 1174.998 s (19.58 min) Masa: 149.026 (Da)

Page 189: Desarrollo de técnicas de clustering en datos de ...

173

0 5 10 15 20 250

2000

4000

6000

8000

10000

12000

14000

Tiempo (s)

Inte

nsid

ad

Cromatograma de ion extraído en el rango de masas (297.155 +- 0.0250) Da

Cromatograma ion extraído

Tiempo: 1310.184 s (21.84 min) Masa: 297.155 (Da)

Page 190: Desarrollo de técnicas de clustering en datos de ...

174

7.4. Apéndice 4. Compuestos encontrados en las 22 muestras de aceites de oliva, sin incluir las huellas espectrométricas.

Para obtener los compuestos en cada una de las muestras, se ha usado un

umbral alto de intensidad de 8000 cuentas y uno bajo de 120 cuentas. Los compuestos se han ordenado por tiempo de retención.

-------------- Fichero gg1.bin --------------- ..................................... Compuestos encontrados....................................... Nº RT(s) M/z(mDa) Desv.Est.T.(s) Desv.Est.M.(mDa) Área(50%) Área(80%) Nº sec - 1 387.7 153.058 2.20 0.21 878884 521116 26 2 490.3 137.062 1.87 0.59 149684 78920 7 3 742.4 139.007 5.22 0.63 147428 74384 69 4 757.5 377.126 3.87 1.40 120100 64584 12 5 760.6 377.126 5.50 1.44 179268 97872 18 6 765.1 213.078 8.55 0.78 270160 187400 22 7 766.2 139.007 5.29 0.45 315952 161620 75 8 770.6 241.073 4.01 0.90 137548 49596 31 9 784.6 349.132 19.94 0.86 688948 520236 11 10 792.6 187.099 3.37 0.37 136324 113260 7 11 793.6 95.049 4.57 0.53 200304 112532 143 12 805.1 139.007 8.17 0.38 1134816 452504 41 13 810.9 213.078 7.95 0.96 -1 124860 114 14 829.0 275.092 4.40 1.29 -1 79396 101 15 833.0 335.116 1.64 0.87 190788 146704 7 16 834.4 183.068 8.19 0.29 -1 546232 39 17 842.2 195.068 5.60 0.98 -1 81096 78 18 848.4 377.127 1.91 0.58 367124 191656 41 19 849.9 95.049 7.44 0.40 -1 241368 45 20 851.8 275.093 4.47 0.79 283164 110872 25 21 861.6 377.126 4.55 0.90 239144 170412 61 22 868.6 319.121 11.59 0.42 -1 2516948 71 23 880.8 195.067 16.75 0.54 -1 540280 64 24 880.9 185.118 1.31 1.28 55672 27864 27 25 886.1 95.049 5.48 0.46 317616 129556 50 26 889.1 377.127 2.22 0.74 1020308 752980 60 27 889.4 393.122 4.74 1.28 119932 63240 20 28 890.7 320.124 22.02 0.72 1077156 673952 4 29 912.1 319.121 12.69 0.43 2721184 1788304 11 30 912.4 393.122 3.22 0.88 153384 102412 58 31 914.9 95.049 8.92 0.38 321684 124940 129 32 925.7 185.048 3.24 1.99 121448 77332 9 33 928.5 195.068 10.11 0.61 197572 104672 8 34 944.1 417.157 1.95 1.27 83856 43152 13 35 958.0 285.043 1.95 0.45 1169240 879488 22 36 960.3 391.143 3.38 0.75 106920 54108 33 37 971.2 319.120 1.96 0.71 87540 51024 16 38 975.6 377.127 3.06 0.81 588048 271696 28 39 980.7 241.073 1.74 0.62 183580 135720 1 40 989.7 361.132 2.08 0.59 202568 121084 75 41 1001.4 275.092 3.37 0.72 142656 71172 127 42 1002.7 357.137 1.78 0.53 178492 133212 7 43 1020.8 391.143 2.35 0.44 123020 91176 21 44 1026.0 377.128 4.55 0.95 -1 114320 138 45 1031.8 307.084 4.53 0.74 249716 145948 38 46 1040.7 415.142 2.08 0.55 932424 625536 35 47 1047.0 377.128 6.33 0.69 617840 306052 115 48 1048.9 213.078 2.73 0.37 462896 310524 34 49 1071.5 183.068 31.13 0.65 1228704 631608 21 50 1074.9 377.127 2.66 0.46 841052 456260 62 51 1101.3 325.185 18.34 1.26 -1 335368 76 52 1105.5 275.090 8.16 0.99 -1 247556 136 53 1122.2 269.046 2.21 0.26 531204 350044 6 54 1133.1 377.127 2.09 0.57 1232572 737884 61 55 1135.8 275.092 3.11 0.66 437504 229428 48 56 1148.1 377.127 4.85 0.67 -1 539236 149 57 1149.3 242.177 2.92 0.34 106768 56000 5 58 1150.3 361.132 4.49 1.03 147012 59668 25 59 1157.4 241.073 2.23 0.83 73712 37992 3 60 1159.0 299.057 1.67 1.15 62736 36888 6 61 1174.4 311.170 23.66 0.76 -1 646700 51 62 1175.0 149.026 10.02 0.62 -1 194444 62 63 1179.7 275.092 10.94 0.89 -1 436996 93 64 1211.5 391.142 3.46 0.97 91932 48932 23 65 1213.6 275.092 8.86 0.88 -1 529840 131 66 1237.7 361.133 6.08 0.65 359708 209412 12 67 1244.8 339.203 10.81 0.70 -1 318380 82 68 1245.8 377.128 7.85 0.74 5716396 3410852 47 69 1252.9 375.113 2.53 1.27 271520 181820 24 70 1260.7 361.132 3.67 1.26 -1 67548 82 71 1265.6 265.150 7.47 0.69 -1 273144 21 72 1275.2 325.186 11.33 0.90 778588 476648 16 73 1278.2 291.089 7.09 0.86 180864 86064 41

Page 191: Desarrollo de técnicas de clustering en datos de ...

175

74 1280.3 311.171 10.86 0.61 -1 577940 52 75 1288.4 339.203 12.91 0.54 920456 451260 27 76 1294.6 377.127 2.04 0.45 621692 405100 53 77 1300.2 391.143 3.39 0.88 117684 69752 4 78 1307.9 253.218 6.79 0.68 -1 285032 78 79 1310.2 297.155 8.33 1.00 -1 162160 78 80 1315.0 377.127 2.48 0.61 252760 190216 31 81 1334.2 343.263 2.12 0.38 112852 76616 3 82 1335.2 253.219 9.15 0.64 -1 408940 146 83 1343.1 315.127 1.58 0.64 72840 54216 9

-------------- Fichero gg2.bin --------------- ..................................... Compuestos encontrados....................................... Nº RT(s) M/z(mDa) Desv.Est.T.(s) Desv.Est.M.(mDa) Área(50%) Área(80%) Nº sec - 1 387.5 153.057 1.83 0.20 554812 296796 24 2 490.6 137.061 2.00 0.82 154480 113268 9 3 769.5 139.008 2.62 0.59 132016 71684 108 4 792.2 187.099 2.91 0.41 125840 91496 8 5 792.9 139.007 3.95 0.71 -1 134644 132 6 800.7 95.049 6.15 0.55 171564 64700 98 7 805.9 319.121 9.92 0.66 387236 183020 9 8 811.1 139.007 5.07 0.55 505024 216720 55 9 833.2 335.116 1.70 0.81 123112 77092 7 10 834.6 319.121 6.86 0.50 -1 456324 134 11 841.8 639.248 11.89 1.39 318084 167068 10 12 848.1 377.127 1.82 0.81 291056 149984 56 13 849.3 183.068 20.18 0.38 2229904 1351236 1 14 853.8 275.093 5.03 1.20 195016 66276 57 15 862.3 377.126 5.15 0.73 182584 111760 56 16 865.6 393.122 2.58 1.50 69232 52628 30 17 880.8 195.068 15.38 0.61 -1 384704 97 18 888.4 377.128 1.75 0.59 787048 586096 48 19 889.9 393.122 4.20 0.90 128876 56228 25 20 889.9 95.049 4.34 0.24 220836 103124 85 21 890.2 319.121 22.71 0.50 4487340 3083672 5 22 909.9 291.088 9.32 1.44 -1 86576 102 23 910.8 393.122 3.71 1.13 178304 138148 56 24 911.4 151.042 3.76 0.48 124596 68028 10 25 914.5 183.068 14.57 0.37 1651412 1035608 13 26 922.7 320.124 10.38 1.12 215448 109988 12 27 944.0 417.156 1.54 1.31 77264 50160 11 28 957.7 361.131 10.12 0.96 -1 214616 105 29 957.9 285.041 1.91 0.38 580328 436860 9 30 962.0 391.141 4.24 1.49 85752 42836 6 31 971.3 319.120 1.69 0.41 93924 77868 24 32 976.2 377.126 2.80 0.52 563440 333464 31 33 980.6 241.072 1.72 0.41 148196 108812 3 34 988.3 361.131 2.19 0.81 253092 167820 38 35 999.8 183.067 7.34 0.69 -1 192828 115 36 1000.2 275.091 4.88 0.91 141020 69364 23 37 1001.9 361.131 3.49 0.94 181872 115916 90 38 1002.5 357.136 1.67 0.50 298576 224328 8 39 1020.3 391.141 2.04 0.85 117604 78352 25 40 1025.3 377.126 5.33 0.74 -1 185564 119 41 1029.1 307.083 5.03 0.75 -1 119644 77 42 1033.4 183.067 12.18 0.61 -1 554104 65 43 1040.5 415.137 1.60 1.48 184396 88300 16 44 1046.7 181.051 4.48 0.69 154308 140652 6 45 1048.1 377.125 7.46 0.83 722380 297432 102 46 1049.6 213.077 2.98 0.32 697964 444004 41 47 1071.1 95.048 5.73 0.49 192440 82280 128 48 1074.3 377.126 2.83 0.33 1011204 649192 44 49 1112.2 183.067 5.91 0.62 -1 217652 180 50 1122.4 269.046 2.28 0.32 156452 103656 1 51 1128.2 183.067 3.63 0.59 -1 65248 120 52 1132.9 377.127 2.18 0.58 1777088 1046060 61 53 1136.3 307.083 3.53 0.48 562136 397624 23 54 1148.8 377.126 4.58 0.54 -1 506824 171 55 1149.3 242.177 2.46 0.29 94044 54260 5 56 1153.1 291.088 5.89 0.95 142008 65236 69 57 1157.1 241.073 2.14 0.79 101520 79340 6 58 1184.3 377.127 10.74 0.53 -1 1430928 123 59 1204.4 275.091 6.93 0.75 -1 542400 123 60 1208.0 378.130 10.48 0.87 755848 233208 90 61 1218.8 333.135 1.90 0.62 69348 36484 4 62 1225.2 345.098 7.19 0.49 -1 275236 94 63 1230.9 149.025 4.90 0.32 -1 254912 116 64 1239.5 361.131 4.68 0.58 498540 375588 7 65 1244.8 377.127 9.24 1.29 7509948 4794380 44 66 1251.9 375.111 1.94 0.97 319008 185964 30 67 1261.6 361.130 2.61 0.62 167964 91600 109 68 1266.4 253.217 5.37 0.94 155616 84488 12 69 1271.2 325.184 8.32 0.76 525612 251048 27 70 1280.2 311.169 10.71 0.57 -1 589836 61 71 1280.2 291.087 8.25 0.76 271908 166544 35 72 1290.1 265.148 13.95 0.72 -1 812468 81

Page 192: Desarrollo de técnicas de clustering en datos de ...

176

73 1295.5 377.125 1.84 0.38 599156 391472 69 74 1303.7 391.141 2.17 0.74 116324 92284 27 75 1316.4 377.125 3.66 0.26 258416 153768 19 76 1319.8 291.087 6.22 0.39 171852 104888 58 77 1334.3 343.260 2.19 0.79 122532 82868 3

-------------- Fichero gg3.bin --------------- ..................................... Compuestos encontrados....................................... Nº RT(s) M/z(mDa) Desv.Est.T.(s) Desv.Est.M.(mDa) Área(50%) Área(80%) Nº sec - 1 387.0 123.045 2.12 0.27 143620 85660 9 2 491.4 137.060 2.09 1.12 92224 77116 7 3 640.2 151.043 14.02 0.54 458572 236144 26 4 770.3 139.008 4.24 0.93 131648 62048 94 5 792.0 183.068 10.47 0.64 326864 168584 3 6 792.1 187.100 3.06 0.41 122536 93156 10 7 809.9 139.008 5.40 0.79 317764 117852 128 8 822.8 319.121 13.33 0.39 1898972 902928 28 9 832.9 335.117 1.65 0.31 195144 147384 9 10 843.2 195.068 8.16 0.73 -1 131856 102 11 851.6 377.126 3.64 0.89 236064 136516 21 12 857.5 95.048 10.75 0.47 -1 469048 95 13 860.3 361.132 4.57 1.34 118912 86744 21 14 877.9 361.131 5.63 1.09 -1 95588 119 15 881.1 185.117 1.36 0.91 56124 47952 17 16 887.5 95.048 7.02 0.36 -1 207348 83 17 888.8 377.127 2.09 0.58 768052 563632 47 18 890.7 319.121 22.39 0.36 8150836 5564204 3 19 893.9 183.068 24.53 0.30 5686628 4148648 4 20 913.1 95.048 8.28 0.39 -1 214068 103 21 914.8 151.042 3.11 0.71 97972 62536 11 22 917.6 377.126 7.06 1.64 -1 114576 79 23 917.7 640.253 8.28 1.46 236760 160376 8 24 922.9 195.068 7.85 0.74 259428 151364 19 25 923.6 255.089 2.94 0.77 120964 77444 4 26 923.8 361.132 19.65 1.22 -1 362588 59 27 925.7 185.049 2.87 1.80 166012 81260 11 28 937.7 185.079 2.98 3.52 89244 64604 14 29 937.8 95.048 6.05 0.57 178732 71156 140 30 957.7 285.042 1.80 0.41 678852 511660 9 31 970.8 95.048 6.68 0.59 172000 69816 108 32 971.7 319.120 1.94 0.36 210660 126424 22 33 976.8 377.126 3.03 0.87 367680 223556 18 34 980.0 241.073 1.84 0.69 95640 64820 2 35 983.0 183.068 8.58 0.46 -1 312032 89 36 989.1 361.131 2.18 0.47 410020 195772 30 37 991.9 291.088 2.96 0.50 360376 175476 5 38 996.9 303.124 5.74 0.74 -1 84080 60 39 999.4 233.082 6.22 0.87 174128 136380 47 40 1001.1 275.090 2.35 1.03 79044 43340 32 41 1002.8 357.136 1.78 0.77 200028 150924 3 42 1002.8 361.131 3.72 0.68 210148 157556 40 43 1008.0 285.114 4.73 1.43 -1 89388 75 44 1011.6 285.114 6.71 1.27 -1 136444 81 45 1020.6 391.142 2.20 0.73 94012 61284 14 46 1022.9 183.068 14.23 0.46 -1 1302976 26 47 1025.2 377.127 4.89 1.00 -1 35064 113 48 1029.2 179.072 3.76 0.89 93184 51244 35 49 1032.0 255.088 1.89 0.53 131664 76624 10 50 1041.0 415.141 1.88 1.35 198616 85052 7 51 1047.7 377.128 5.88 0.80 315048 147872 86 52 1051.8 361.133 4.37 0.47 1069920 852612 46 53 1071.1 139.045 5.35 2.48 222872 95964 39 54 1075.1 377.129 2.38 0.40 536708 418308 28 55 1077.5 165.058 16.39 0.59 -1 640332 37 56 1079.6 303.127 17.24 1.02 -1 1017960 25 57 1083.2 233.084 19.81 0.89 -1 583832 20 58 1091.2 183.069 23.23 0.56 3185232 1867204 2 59 1094.2 259.101 12.98 0.72 -1 302156 60 60 1107.3 139.048 7.67 1.33 203260 113972 58 61 1114.2 165.059 5.40 0.48 -1 167272 151 62 1122.3 269.049 1.90 0.29 174844 129008 1 63 1128.4 303.128 3.60 1.08 -1 83832 152 64 1132.6 377.130 2.16 0.52 624500 410308 69 65 1146.3 377.130 3.44 0.42 561088 382160 155 66 1149.1 242.179 2.40 0.51 101120 76344 4 67 1149.7 165.059 8.06 0.92 128668 54660 33 68 1151.4 361.135 4.91 1.02 244420 107288 80 69 1156.6 241.075 1.95 1.34 88992 34056 2 70 1159.0 299.059 1.88 0.77 70908 48044 2 71 1210.9 275.094 6.58 0.57 -1 272072 95 72 1215.2 149.028 6.13 0.48 -1 166852 47 73 1218.3 339.205 8.66 0.76 -1 203128 50 74 1218.6 378.134 6.90 0.93 -1 83700 48 75 1225.2 227.096 1.87 0.87 63364 41572 9 76 1230.3 139.039 4.97 0.63 185420 108696 86 77 1233.6 265.152 14.56 0.86 -1 454152 27

Page 193: Desarrollo de técnicas de clustering en datos de ...

177

78 1240.6 361.135 4.31 0.58 637300 398352 12 79 1242.8 377.130 11.23 0.43 3686364 2193608 21 80 1247.8 127.042 4.13 0.30 197716 102988 3 81 1252.6 375.116 2.32 1.46 480256 322320 35 82 1255.4 139.039 4.91 0.55 577168 268368 84 83 1264.1 377.130 2.76 0.33 1472804 1142028 105 84 1271.8 253.220 7.92 0.81 294020 187728 10 85 1274.9 339.205 6.44 0.63 -1 279856 60 86 1277.6 325.188 11.41 0.63 -1 395568 36 87 1278.5 291.091 6.61 0.76 287804 136420 10 88 1283.5 265.151 14.16 0.58 -1 623936 56 89 1293.8 377.130 2.37 0.35 645612 425480 61 90 1307.8 253.220 12.04 0.82 -1 289208 109 91 1314.2 377.129 1.93 0.34 267924 160476 27 92 1325.8 361.134 4.67 0.96 185596 78268 126 93 1334.1 343.264 2.09 0.52 114552 75784 3 94 1341.8 291.090 4.53 1.17 114512 20720 166

-------------- Fichero gg4.bin --------------- ..................................... Compuestos encontrados....................................... Nº RT(s) M/z(mDa) Desv.Est.T.(s) Desv.Est.M.(mDa) Área(50%) Área(80%) Nº sec - 1 387.8 153.058 2.18 0.17 992988 594448 34 2 490.8 137.062 1.63 0.42 210540 160892 16 3 767.3 139.007 4.44 0.44 169116 91172 94 4 791.1 187.099 2.72 0.37 136456 88016 7 5 805.6 139.007 7.68 0.28 549156 209956 103 6 821.7 183.068 14.60 0.45 832876 401716 9 7 833.7 335.116 2.00 0.42 185616 111320 7 8 847.0 377.127 2.13 0.65 206648 182444 27 9 850.8 319.121 19.50 0.40 2997684 1812272 13 10 853.4 307.084 5.13 0.55 126600 64868 22 11 856.9 95.048 10.96 0.55 -1 320784 87 12 860.9 377.126 3.94 1.10 141516 68352 84 13 882.7 195.068 14.92 0.82 -1 304328 70 14 882.8 320.125 19.37 0.96 -1 502416 44 15 887.2 393.122 5.24 1.00 104884 54828 16 16 889.0 377.127 2.13 0.18 790488 464128 49 17 890.2 95.049 3.64 0.42 185312 103428 90 18 911.9 393.123 3.18 0.95 164916 81704 8 19 912.2 319.122 13.29 0.47 2110548 1367440 9 20 914.7 183.069 14.10 0.38 1596856 1040572 9 21 917.2 95.049 6.95 0.54 192692 126912 139 22 944.2 417.158 1.64 1.21 59976 35376 17 23 945.7 377.128 6.11 1.33 -1 137760 137 24 958.1 285.043 2.00 0.32 723704 546676 13 25 972.3 319.122 2.25 0.29 116208 78348 20 26 975.0 377.129 2.42 0.67 421908 230360 24 27 981.1 241.074 1.92 0.41 109804 46700 3 28 988.8 361.133 2.28 0.43 206620 127892 42 29 991.5 333.137 2.69 1.20 53388 43528 1 30 1000.8 275.093 2.17 0.63 102880 58024 59 31 1002.8 357.139 1.80 0.52 305752 178668 7 32 1005.0 291.090 5.21 0.79 107648 54208 58 33 1021.3 183.069 10.65 0.63 580300 264328 114 34 1021.6 391.144 3.03 0.61 111580 47476 15 35 1041.2 393.123 1.42 0.77 221904 150920 18 36 1045.6 181.053 4.08 0.57 153708 135200 7 37 1048.2 377.128 6.70 0.77 535796 168444 120 38 1049.1 213.079 2.79 0.30 600724 457932 41 39 1053.1 259.099 5.46 0.48 165008 103684 8 40 1073.7 377.128 2.19 0.44 773392 444656 64 41 1081.6 183.068 17.99 0.55 -1 765476 70 42 1087.9 303.126 8.60 1.01 -1 138540 85 43 1122.5 269.048 2.02 0.52 208176 121232 1 44 1123.1 183.069 5.39 0.37 214988 139516 125 45 1133.2 271.063 2.13 1.18 64064 33776 10 46 1136.0 377.129 3.29 0.57 1433504 851392 45 47 1147.2 378.132 4.16 0.99 -1 100092 155 48 1150.4 361.133 4.32 0.84 154084 53672 23 49 1150.8 242.178 3.69 0.63 96080 54556 6 50 1155.1 241.074 2.07 0.91 79112 52080 3 51 1175.9 345.100 9.50 1.03 -1 243140 84 52 1182.0 307.084 12.11 0.60 -1 590464 68 53 1196.0 149.026 7.73 0.64 -1 297500 111 54 1214.8 378.132 4.26 0.95 -1 168252 159 55 1218.8 333.138 1.92 0.72 91812 73944 4 56 1239.9 361.133 4.36 0.65 368512 261972 36 57 1241.8 377.129 11.62 0.87 6254004 4233600 52 58 1252.7 375.114 2.40 1.03 390788 296656 37 59 1262.0 361.133 3.03 0.69 117300 63236 75 60 1266.2 339.204 7.39 0.89 -1 162748 52 61 1274.6 325.187 10.50 0.92 716012 377268 40 62 1278.2 253.219 10.96 0.93 435440 269716 38 63 1294.8 377.127 2.07 0.36 564496 342512 52 64 1301.2 139.034 5.18 3.13 65836 25380 7 65 1303.3 391.143 2.16 0.81 153400 92896 11

Page 194: Desarrollo de técnicas de clustering en datos de ...

178

66 1304.3 311.171 12.54 0.54 -1 943336 69 67 1305.5 297.154 14.24 0.96 -1 301784 71 68 1314.9 377.128 2.43 0.68 212192 160600 22 69 1316.8 291.089 3.77 0.66 168404 89136 24 70 1333.9 343.262 1.93 0.43 128108 109936 10 71 1342.3 326.190 3.69 1.22 -1 71620 195 72 1343.0 315.126 1.36 0.90 51692 35192 7

-------------- Fichero gg5.bin --------------- ..................................... Compuestos encontrados....................................... Nº RT(s) M/z(mDa) Desv.Est.T.(s) Desv.Est.M.(mDa) Área(50%) Área(80%) Nº sec - 1 312.3 125.997 2.63 0.37 221240 160924 46 2 387.4 123.046 2.42 0.19 903864 606484 27 3 472.6 191.056 2.13 1.01 137404 84552 2 4 490.8 137.061 2.03 0.64 210148 137604 9 5 535.6 367.104 1.86 1.21 76636 60884 2 6 604.3 151.042 3.85 0.61 -1 78856 69 7 627.9 151.041 9.75 0.55 -1 302360 68 8 631.7 367.104 1.73 0.75 71904 31224 3 9 638.2 335.089 2.70 4.47 153248 92852 23 10 659.1 151.041 8.55 0.42 200340 120256 11 11 756.7 349.129 4.07 1.50 90296 43628 17 12 766.6 139.006 5.20 0.48 205692 98380 86 13 787.8 377.124 19.55 1.13 591248 374348 18 14 792.2 187.097 3.24 0.66 98812 63572 6 15 796.5 241.071 4.79 1.15 -1 78284 82 16 799.2 127.040 6.68 0.50 216236 61908 67 17 805.1 111.009 8.78 0.48 237164 66004 39 18 807.7 139.006 6.26 0.42 643404 267408 33 19 809.3 185.081 2.46 1.12 70368 46616 5 20 822.6 183.067 13.67 0.34 1604504 789480 11 21 833.2 335.114 1.74 0.68 186688 112184 6 22 835.3 195.067 11.00 0.84 366216 217460 81 23 854.9 377.123 6.50 1.30 273304 180448 19 24 861.9 275.091 5.17 0.92 -1 110904 145 25 874.7 249.076 15.36 1.01 -1 350760 101 26 881.5 319.118 25.15 0.52 9160696 5602756 7 27 887.5 95.048 5.85 0.30 396788 164728 102 28 888.4 377.123 1.78 0.57 715448 533352 47 29 892.7 183.067 23.95 0.34 5923488 4329512 9 30 910.4 393.119 4.05 0.92 204852 91632 91 31 936.9 185.080 2.81 1.32 84224 48680 12 32 944.1 417.152 1.61 0.60 63140 29768 9 33 957.9 285.040 1.95 0.29 978424 728228 20 34 971.2 319.117 1.65 0.23 127708 76772 18 35 971.6 139.037 4.19 2.21 94856 42684 137 36 975.5 377.124 3.04 0.41 621412 277304 17 37 981.0 241.071 1.89 0.28 187908 146240 2 38 989.2 291.086 2.13 0.31 237840 114512 71 39 993.4 213.077 4.53 0.49 194400 129628 2 40 1001.6 361.130 3.42 0.61 145604 94140 71 41 1001.8 275.090 3.34 0.52 140052 74328 91 42 1002.9 357.134 1.80 0.32 313592 238428 11 43 1019.1 139.043 4.89 1.67 -1 61696 117 44 1021.1 391.140 2.56 0.35 154440 140140 11 45 1025.6 165.056 12.58 0.76 -1 314692 53 46 1028.2 183.067 12.91 0.37 -1 822992 56 47 1041.0 415.137 1.86 1.13 262156 191800 13 48 1045.8 181.051 4.27 0.91 122876 78460 5 49 1047.2 377.124 7.87 0.57 -1 397468 123 50 1050.3 213.077 2.91 0.26 499396 286732 22 51 1074.7 377.124 2.97 0.53 1076972 648992 64 52 1079.2 183.067 17.22 0.42 -1 1233200 76 53 1088.9 165.056 10.06 0.64 -1 186920 65 54 1094.1 303.123 14.65 1.01 -1 395464 50 55 1119.3 165.056 7.84 1.00 -1 161756 98 56 1122.4 269.044 1.90 0.37 366476 272860 3 57 1126.8 183.066 3.51 0.63 181096 91396 84 58 1131.3 391.138 2.40 1.31 64512 45336 24 59 1133.3 377.124 2.11 0.40 1762104 1248256 55 60 1136.4 275.090 3.52 0.38 619244 399592 40 61 1144.8 291.086 5.17 1.16 157868 84652 56 62 1147.6 183.067 7.59 0.81 208720 107272 91 63 1150.7 242.176 3.66 0.57 88920 53988 3 64 1151.0 361.130 4.45 0.73 182676 112132 60 65 1157.5 241.072 2.35 0.80 107604 70676 7 66 1159.5 299.055 1.94 0.83 104312 68272 4 67 1191.9 378.128 10.35 0.77 -1 349588 91 68 1201.2 345.098 8.92 0.85 -1 329732 86 69 1208.2 275.090 8.31 0.51 -1 881200 96 70 1212.5 391.139 3.44 1.27 112592 73980 20 71 1218.8 333.134 1.98 1.26 69176 45492 1 72 1225.2 227.093 1.94 0.53 58540 47256 9 73 1234.9 377.125 18.26 1.39 7513508 4479744 27 74 1236.6 361.130 5.99 0.49 443228 263112 11 75 1246.2 391.138 2.15 0.71 78768 51144 43

Page 195: Desarrollo de técnicas de clustering en datos de ...

179

76 1252.9 375.111 2.73 1.43 375612 275556 27 77 1256.3 101.023 6.39 0.48 225512 137424 96 78 1261.8 361.129 2.61 0.65 148248 89644 67 79 1266.3 325.183 6.47 0.61 -1 290768 29 80 1266.9 431.220 6.76 1.10 280440 145952 30 81 1274.5 311.168 10.38 0.67 792872 234396 25 82 1277.4 253.216 9.18 0.90 405008 295860 27 83 1279.8 291.086 6.60 0.74 231752 86276 39 84 1282.0 265.147 13.65 0.45 -1 857652 45 85 1294.5 377.124 2.10 0.38 700060 423484 61 86 1303.5 253.216 5.03 0.59 -1 248084 125 87 1303.6 391.139 2.28 0.54 263844 124424 14 88 1308.1 595.287 10.26 1.15 -1 266632 70 89 1310.9 595.287 11.70 1.10 -1 343548 107 90 1315.1 377.124 2.74 0.68 279596 207648 38 91 1334.3 343.259 2.25 0.44 156052 105200 5 92 1342.8 315.123 1.36 0.38 76972 50976 3 93 1342.9 321.098 4.31 0.84 130956 62072 200

-------------- Fichero gg6.bin --------------- ..................................... Compuestos encontrados....................................... Nº RT(s) M/z(mDa) Desv.Est.T.(s) Desv.Est.M.(mDa) Área(50%) Área(80%) Nº sec - 1 388.1 153.057 2.29 0.13 863360 513708 28 2 491.5 137.060 2.40 0.68 195412 155240 10 3 609.7 151.041 9.88 0.75 235164 130468 55 4 756.9 349.129 4.06 1.18 172652 121060 55 5 769.7 139.006 3.29 0.35 215344 115512 75 6 775.0 377.124 6.29 0.77 -1 280528 84 7 782.9 213.076 19.77 0.83 762356 405148 35 8 784.2 377.124 11.72 0.81 -1 559236 88 9 791.4 187.097 2.66 0.88 102420 67072 10 10 805.5 319.118 11.02 0.69 705064 445500 14 11 805.5 139.006 7.52 0.46 717220 221208 58 12 821.8 183.067 14.24 0.35 1207096 524768 1 13 822.0 349.129 10.05 1.05 -1 224624 48 14 830.2 275.090 6.72 1.03 -1 112260 45 15 831.5 377.124 5.28 0.82 -1 252140 80 16 833.3 335.114 1.76 0.67 189412 115192 5 17 837.0 319.119 7.03 0.40 -1 913240 76 18 848.0 377.125 1.67 0.40 449424 255480 47 19 852.1 307.082 4.33 0.40 259376 144552 19 20 853.8 639.245 3.68 0.52 -1 167564 58 21 854.9 195.066 7.68 0.49 -1 224264 66 22 858.0 95.048 9.31 0.42 -1 245248 44 23 863.2 377.124 6.03 0.65 320748 206804 41 24 868.8 319.119 11.05 0.26 -1 2240124 75 25 869.7 361.128 9.08 1.39 255756 116416 33 26 887.0 393.121 4.68 1.00 96620 49568 37 27 889.0 95.048 2.98 0.28 243524 101340 101 28 889.2 377.126 2.25 0.52 1174516 859832 41 29 912.0 319.119 12.96 0.46 3095936 2012716 18 30 913.2 361.128 13.82 1.72 -1 302992 71 31 913.5 393.120 3.87 0.98 164336 111344 8 32 915.9 151.041 3.13 0.34 142384 80756 2 33 916.3 361.128 15.55 1.86 -1 357908 45 34 922.8 95.048 4.76 0.42 -1 67292 142 35 925.8 185.049 3.15 6.61 90304 45396 8 36 926.7 195.067 10.55 0.89 258264 128864 35 37 937.2 185.078 2.69 3.19 66644 45888 9 38 956.9 291.087 9.38 0.91 -1 232412 54 39 958.1 361.130 9.14 0.72 -1 260176 51 40 958.3 285.041 2.05 0.09 990824 743528 16 41 962.1 391.141 4.24 1.08 117124 42196 10 42 971.2 95.048 3.79 0.76 94740 32196 67 43 971.4 319.119 2.02 0.77 121936 83828 12 44 974.2 377.126 2.55 0.43 711076 388336 23 45 980.9 241.072 1.84 0.50 152212 92448 4 46 985.3 183.067 7.65 0.58 -1 166388 106 47 988.2 361.131 2.68 0.49 357992 213028 35 48 993.5 213.078 4.45 0.41 236140 127320 4 49 1001.5 275.091 3.88 0.69 196084 119908 84 50 1002.8 357.135 1.77 0.38 323132 240880 8 51 1003.8 361.131 4.95 0.37 231680 157252 56 52 1017.3 275.090 3.88 0.88 -1 77636 73 53 1019.8 391.141 1.90 0.29 117472 82568 15 54 1023.8 183.067 14.03 0.52 -1 637376 46 55 1024.0 139.041 6.82 1.16 198308 162084 56 56 1026.7 377.126 5.83 0.69 -1 322556 96 57 1028.6 303.124 10.35 1.19 -1 179656 47 58 1041.3 393.120 1.64 0.79 212364 122232 17 59 1047.0 377.125 6.04 0.59 -1 343368 119 60 1049.8 139.040 7.90 1.70 -1 115856 34 61 1050.5 213.077 2.94 0.36 700600 481204 31 62 1059.7 303.123 7.78 0.70 -1 136328 108 63 1074.5 377.124 2.49 0.19 1247136 804012 72 64 1100.0 183.066 15.78 0.47 1088092 535364 124

Page 196: Desarrollo de técnicas de clustering en datos de ...

180

65 1122.8 269.045 2.07 0.38 329760 219152 1 66 1133.3 377.125 2.09 0.24 1587684 1143460 62 67 1137.1 345.098 3.93 0.88 236264 120400 56 68 1146.6 183.066 7.21 0.78 191716 83504 119 69 1149.0 242.176 2.61 0.69 93920 62500 8 70 1151.8 361.129 4.50 0.96 240096 120108 73 71 1156.3 241.071 2.10 0.81 93880 43516 1 72 1159.9 299.055 1.97 0.93 76484 50768 4 73 1193.8 307.082 10.35 0.56 -1 818984 142 74 1209.7 149.025 7.99 0.49 -1 301228 82 75 1212.8 391.140 2.99 0.70 108896 48980 11 76 1213.0 149.025 9.66 0.46 -1 439468 87 77 1219.3 333.135 2.09 0.97 61952 23816 5 78 1224.2 571.291 9.49 1.53 -1 146600 93 79 1227.3 276.093 4.34 1.07 121360 93856 92 80 1240.3 361.131 4.19 0.42 641700 383300 19 81 1241.9 377.127 13.79 1.00 8950260 4060580 34 82 1247.2 391.140 2.20 0.83 61220 30520 65 83 1252.1 375.110 2.02 0.76 764408 515576 42 84 1264.1 361.131 4.45 0.58 205052 96540 25 85 1264.8 311.169 6.26 0.50 -1 243468 39 86 1265.5 413.104 3.96 0.95 95040 70484 82 87 1270.2 253.217 4.13 0.80 -1 82276 42 88 1271.1 571.291 8.40 1.35 463092 191144 27 89 1273.2 265.148 9.75 0.52 -1 944224 34 90 1279.9 291.087 8.78 0.84 -1 181924 21 91 1280.1 339.201 8.90 0.96 522256 348428 69 92 1289.6 297.153 13.94 0.93 -1 380084 44 93 1294.4 377.125 2.52 0.44 804544 577808 68 94 1303.6 116.929 19.19 0.51 -1 655744 28 95 1303.6 311.169 15.67 0.64 -1 1197372 40 96 1304.3 391.141 2.53 0.87 112328 68156 10 97 1304.9 431.221 10.39 1.12 -1 266992 40 98 1315.7 377.126 2.94 0.67 289812 170292 26 99 1319.6 253.217 13.19 0.66 1006752 538100 41 100 1327.8 291.087 6.17 0.86 -1 111376 100 101 1334.5 343.260 2.38 0.46 157860 108520 5 102 1335.2 326.187 9.27 1.24 -1 116756 154

-------------- Fichero gg7.bin --------------- ..................................... Compuestos encontrados....................................... Nº RT(s) M/z(mDa) Desv.Est.T.(s) Desv.Est.M.(mDa) Área(50%) Área(80%) Nº sec - 1 388.2 123.046 2.34 0.20 839848 492324 29 2 491.1 137.061 1.74 0.74 135232 103900 6 3 632.6 151.041 16.16 0.55 910232 481720 21 4 747.4 139.007 3.59 1.45 -1 77300 77 5 752.4 319.119 3.09 0.85 113012 61052 16 6 766.4 377.126 8.61 0.87 756444 514268 22 7 766.6 139.008 5.28 1.03 270232 129864 58 8 770.8 377.126 10.88 0.83 985304 743128 18 9 774.7 349.131 14.12 0.72 1165524 992924 21 10 775.1 95.048 5.81 0.40 266988 191364 115 11 777.0 213.077 15.89 0.66 1060964 751168 9 12 779.9 111.009 15.28 0.55 637844 290208 26 13 786.3 307.083 19.63 0.95 937676 555652 18 14 791.1 187.099 2.65 0.45 101364 55380 5 15 806.8 149.026 9.71 0.86 -1 183368 54 16 808.0 139.008 6.43 0.61 764240 289120 65 17 809.6 321.131 2.58 2.82 76224 34744 41 18 812.9 95.048 8.13 0.32 769540 203604 47 19 813.8 165.057 12.14 0.67 374268 198032 17 20 816.7 184.071 6.73 0.65 -1 112308 61 21 822.6 319.120 13.63 0.38 6586032 3210916 11 22 833.3 335.116 1.75 0.49 497932 378136 12 23 835.8 195.067 7.96 0.54 -1 352524 80 24 837.8 301.109 9.13 1.37 -1 127868 58 25 841.5 265.148 15.18 0.87 -1 436248 30 26 851.7 377.125 3.57 0.53 925316 680656 40 27 855.7 95.048 10.38 0.29 -1 818440 48 28 859.6 123.045 15.63 0.53 514480 266692 48 29 862.4 307.083 5.42 0.68 247688 162584 29 30 867.8 319.120 11.27 0.44 -1 9623160 41 31 868.0 183.067 11.03 0.29 -1 5326248 49 32 868.7 661.229 9.92 1.96 309248 184948 29 33 869.2 361.130 8.43 1.08 271928 176916 9 34 882.2 165.057 19.17 0.57 -1 674080 29 35 890.7 377.127 3.71 0.76 3048876 1857112 57 36 892.1 95.048 8.81 0.29 1201000 290516 36 37 892.8 195.067 23.56 0.57 2559812 1755596 0 38 907.3 321.124 4.96 1.30 -1 62260 122 39 911.1 393.122 4.74 1.28 134092 92784 10 40 912.8 319.121 13.33 0.37 11596804 7003908 7 41 913.3 291.088 7.79 1.16 -1 174696 97 42 915.5 151.041 1.91 0.59 75396 59244 19 43 915.7 183.068 15.01 0.30 6957008 4002760 8 44 919.3 361.130 6.68 1.68 -1 201024 99

Page 197: Desarrollo de técnicas de clustering en datos de ...

181

45 923.2 641.255 8.41 1.31 240248 144604 9 46 930.1 165.057 8.29 0.49 273164 165292 38 47 938.3 95.048 8.00 0.44 468752 217528 52 48 939.5 139.048 5.45 1.82 196640 134468 137 49 943.9 417.154 1.60 2.61 60724 35900 12 50 958.1 285.042 1.93 0.30 922324 695736 14 51 961.8 391.143 4.23 0.50 141896 87396 11 52 973.5 319.120 4.30 0.59 109208 55052 15 53 975.4 377.127 2.42 0.65 1309332 720504 48 54 980.8 241.073 1.78 0.47 270044 201916 3 55 987.0 183.068 7.40 0.60 -1 264032 127 56 988.5 361.131 2.46 0.60 515808 310284 39 57 992.3 291.088 3.22 0.52 480892 347640 7 58 1000.9 275.091 3.40 0.55 290980 122576 97 59 1001.5 391.142 1.64 0.51 253028 189660 15 60 1003.8 361.132 4.98 0.85 329212 223564 45 61 1005.5 165.057 8.93 0.71 -1 148480 82 62 1011.5 213.078 3.37 0.83 -1 63872 67 63 1021.0 391.142 2.93 0.42 222428 149444 21 64 1024.3 183.067 13.83 0.47 -1 930864 24 65 1024.8 95.048 8.09 0.48 329528 217992 92 66 1029.0 307.083 4.96 0.76 -1 287192 89 67 1035.7 303.124 6.60 0.77 -1 147604 65 68 1042.1 393.122 2.01 1.05 167876 126284 6 69 1046.7 377.126 7.16 0.72 1549184 670540 95 70 1050.5 361.131 3.63 0.45 1330952 1009508 51 71 1060.4 183.067 6.96 0.55 -1 506564 88 72 1061.1 233.082 6.72 1.05 203608 90548 41 73 1075.6 377.126 3.15 0.72 2083372 1442044 74 74 1089.2 165.056 8.09 0.56 -1 167820 75 75 1094.8 303.125 12.21 0.89 -1 346416 62 76 1102.0 291.088 17.18 0.84 -1 735676 19 77 1103.2 325.185 16.93 0.96 -1 283704 38 78 1108.5 311.170 19.80 1.00 -1 669912 11 79 1117.6 183.067 7.20 0.43 567820 437988 59 80 1122.6 269.046 1.99 0.81 204176 136420 3 81 1128.0 265.149 30.16 0.59 -1 3489392 18 82 1130.2 127.040 5.26 0.61 117856 65012 84 83 1133.7 271.061 2.00 0.75 82276 64972 21 84 1137.3 377.127 4.25 0.50 3171948 2069488 37 85 1145.6 95.048 3.07 0.37 -1 107580 122 86 1146.7 183.067 6.98 0.58 242740 120384 60 87 1147.3 361.131 3.05 0.58 308620 174464 33 88 1157.7 241.072 2.86 0.68 104472 68848 7 89 1159.6 299.056 1.45 0.61 54524 26396 4 90 1163.5 361.131 4.75 0.77 -1 165624 141 91 1165.7 325.185 18.47 0.85 -1 458588 54 92 1165.9 755.260 8.01 1.72 -1 144952 71 93 1179.9 308.087 9.45 0.72 -1 188160 119 94 1194.9 276.095 7.18 0.84 -1 168948 121 95 1214.2 391.142 3.48 1.07 136356 78196 18 96 1215.6 345.100 10.66 0.67 -1 579936 111 97 1228.0 339.202 14.17 1.10 -1 398968 107 98 1231.2 111.009 6.53 0.50 -1 248100 134 99 1235.6 377.128 20.09 1.65 13722396 6301480 26 100 1238.1 361.132 5.58 0.57 863552 541200 13 101 1252.6 753.244 2.14 0.79 653740 342124 25 102 1255.1 413.104 6.09 0.90 372808 264604 64 103 1261.0 361.131 2.99 0.80 180644 93748 120 104 1264.4 309.174 8.28 1.27 -1 170736 19 105 1264.8 571.292 6.25 1.81 -1 98140 45 106 1277.8 325.185 12.48 0.62 909708 599496 15 107 1278.9 291.088 7.93 0.89 -1 189420 46 108 1281.9 433.238 9.35 0.62 883284 614200 58 109 1285.0 311.170 15.17 0.58 1828240 987248 14 110 1295.5 377.126 2.15 0.40 1254888 738816 92 111 1302.0 391.142 2.35 0.94 121536 69968 6 112 1302.0 431.223 6.39 1.21 -1 86844 60 113 1311.5 434.242 13.09 1.06 416676 255044 23 114 1312.0 433.238 8.02 0.72 -1 658796 67 115 1315.5 377.126 2.70 0.26 558236 373892 36 116 1316.3 361.131 3.21 0.43 286252 152224 13 117 1318.4 339.201 11.51 0.84 -1 540176 41 118 1322.0 253.217 6.81 0.49 -1 331968 54 119 1330.3 391.142 8.00 0.96 -1 120488 136 120 1334.5 343.261 2.15 0.43 177684 133848 4 121 1343.6 315.125 1.81 1.30 72760 50724 13

-------------- Fichero gg8.bin --------------- ..................................... Compuestos encontrados....................................... Nº RT(s) M/z(mDa) Desv.Est.T.(s) Desv.Est.M.(mDa) Área(50%) Área(80%) Nº sec - 1 388.4 123.046 2.19 0.18 762584 536336 22 2 491.6 137.061 1.97 0.55 240140 178864 10 3 524.1 139.005 1.87 0.28 69188 35560 39 4 671.3 119.051 1.74 0.52 74456 33516 3 5 703.5 225.079 3.44 0.63 307388 195528 10

Page 198: Desarrollo de técnicas de clustering en datos de ...

182

6 756.5 349.132 4.13 0.62 521896 366280 57 7 761.3 377.127 6.44 0.37 718176 549740 22 8 764.0 195.067 1.80 0.78 72100 38912 10 9 765.3 275.092 8.78 0.57 444580 350872 38 10 769.6 139.011 3.86 0.99 232064 118556 54 11 776.1 213.078 15.67 0.57 1637404 1305168 25 12 780.2 307.084 16.44 0.63 1256560 859248 29 13 784.7 349.132 20.44 0.59 2610296 1636868 8 14 789.2 307.084 21.28 0.70 1665968 1247808 31 15 792.8 187.098 3.92 0.66 111344 47656 7 16 806.8 139.009 6.70 1.13 572172 210128 62 17 808.2 225.078 4.41 0.43 92768 70696 2 18 813.7 111.009 6.23 0.42 330760 199936 44 19 821.6 213.078 10.46 0.72 -1 589324 76 20 822.7 319.121 13.39 0.42 2782972 1526992 41 21 832.7 335.117 1.59 0.33 121376 75204 6 22 854.0 377.127 5.70 0.24 1551248 955548 47 23 860.1 149.026 3.54 0.28 143740 62068 73 24 867.5 195.068 11.03 0.64 -1 488308 60 25 867.8 165.057 11.11 0.77 311500 204976 42 26 867.8 319.122 10.07 0.62 5254876 3767840 66 27 880.6 185.118 1.39 0.80 82980 55512 18 28 890.4 377.129 3.84 0.73 3640292 2827632 88 29 909.5 639.251 9.99 0.95 1511988 951048 12 30 911.7 393.122 4.10 1.34 105400 63604 104 31 912.6 319.122 12.46 0.50 4908292 3076972 25 32 915.5 291.089 13.68 0.87 672992 434304 42 33 915.8 379.140 1.60 1.39 64300 27852 26 34 924.0 361.133 18.50 0.85 1028328 821628 18 35 926.3 185.048 2.61 0.81 188608 157952 10 36 937.3 377.128 12.57 0.63 -1 653492 46 37 943.4 417.157 1.64 1.77 120528 92804 6 38 944.7 139.041 5.91 1.18 -1 146472 95 39 951.3 95.048 3.85 0.38 107948 57352 74 40 957.8 285.042 1.90 0.30 1861488 1096636 27 41 967.6 111.009 6.54 0.61 161808 63640 103 42 971.6 387.149 1.72 1.02 67596 41064 6 43 974.8 307.084 2.69 0.55 409340 231072 19 44 976.0 377.128 3.32 0.45 1406056 1226048 14 45 980.2 241.073 1.97 0.21 515640 352668 4 46 981.6 183.068 3.53 0.47 -1 94828 116 47 987.3 291.089 2.68 0.23 650540 428656 32 48 992.7 213.078 4.34 0.43 480088 344916 10 49 995.5 139.040 7.51 0.92 -1 152124 92 50 997.3 379.142 3.14 1.02 85124 61264 12 51 998.8 275.091 6.77 0.78 -1 122540 61 52 1002.1 357.137 1.91 0.66 242360 165744 6 53 1004.5 291.089 5.35 0.48 470860 259908 88 54 1012.4 183.067 11.78 0.56 861184 472020 47 55 1019.5 391.143 2.12 0.99 80692 60552 21 56 1023.7 303.124 13.64 1.28 -1 186428 66 57 1031.1 307.083 4.18 0.55 1127644 629392 18 58 1031.3 149.025 4.72 0.80 -1 134000 126 59 1039.3 183.067 4.08 0.50 -1 246612 95 60 1039.6 415.141 1.65 0.71 860816 634888 30 61 1049.8 291.088 3.73 0.45 1587392 1259240 72 62 1060.6 183.067 7.20 0.47 -1 470600 56 63 1060.7 303.125 6.28 0.70 228888 159380 62 64 1074.5 377.127 2.53 0.36 1234288 864768 70 65 1088.1 363.146 2.77 1.32 110200 54288 8 66 1097.2 183.068 14.58 0.51 -1 911832 96 67 1104.4 311.170 17.04 1.05 -1 242256 78 68 1122.0 269.047 2.06 0.20 765420 404064 6 69 1128.9 183.068 2.78 0.56 -1 85880 105 70 1132.4 377.127 2.37 0.41 1500560 995932 55 71 1136.2 95.048 5.62 0.45 246504 71064 68 72 1144.5 361.132 4.16 0.71 368144 217112 37 73 1145.4 291.089 6.34 0.53 -1 244880 92 74 1145.7 377.127 3.53 0.35 1154832 554992 109 75 1149.0 242.177 2.37 0.44 96976 72964 8 76 1149.5 183.068 8.66 0.76 216572 71592 9 77 1156.8 241.073 2.01 0.64 211892 159144 8 78 1159.3 299.058 2.21 0.78 153364 123912 3 79 1160.2 361.133 5.43 0.77 -1 249144 131 80 1171.7 149.026 7.64 0.52 -1 171236 154 81 1195.3 399.109 6.88 1.23 -1 118972 127 82 1198.0 363.145 2.87 1.18 80904 62664 5 83 1202.1 345.100 8.32 0.76 -1 216900 81 84 1212.1 95.048 3.95 0.51 -1 96532 76 85 1219.6 399.109 7.40 0.96 -1 150264 127 86 1235.4 291.089 6.10 0.48 1677172 866636 21 87 1241.9 377.128 13.65 0.77 8529288 3580572 22 88 1247.2 127.041 9.04 0.42 566964 276600 6 89 1251.3 375.112 2.06 0.86 190520 127840 22 90 1253.7 116.929 8.58 0.45 -1 268160 152 91 1259.3 361.132 2.87 0.56 -1 126944 173 92 1263.6 307.084 2.95 0.25 1274952 1037832 95 93 1273.9 339.202 11.95 0.76 631048 320604 14

Page 199: Desarrollo de técnicas de clustering en datos de ...

183

94 1277.9 291.089 6.92 0.87 478268 302720 10 95 1278.2 361.132 8.42 0.89 431864 299460 25 96 1278.9 433.239 9.18 0.66 -1 417796 29 97 1282.6 311.170 10.53 0.59 -1 581844 39 98 1287.0 325.186 11.68 0.70 -1 656540 35 99 1291.6 309.175 15.41 1.08 -1 281044 35 100 1294.0 377.127 2.73 0.25 1438904 942152 77 101 1307.4 339.201 7.70 0.68 -1 325360 35 102 1311.3 571.292 7.17 1.64 -1 155456 76 103 1313.4 433.239 10.84 0.79 -1 862404 46 104 1315.3 377.127 3.32 0.38 547316 370104 41 105 1324.6 291.089 4.40 0.88 210464 126700 79 106 1330.6 326.189 9.99 0.95 -1 154108 131 107 1333.6 343.262 2.36 0.47 151424 104532 5 108 1343.0 315.126 1.35 0.40 112328 76788 4

-------------- Fichero gg9.bin --------------- ..................................... Compuestos encontrados....................................... Nº RT(s) M/z(mDa) Desv.Est.T.(s) Desv.Est.M.(mDa) Área(50%) Área(80%) Nº sec - 1 387.5 123.046 2.14 0.17 675720 479140 22 2 489.8 137.061 1.66 0.62 186844 140276 13 3 506.8 139.005 1.85 0.45 84312 66720 50 4 524.3 139.005 2.42 0.36 118396 85388 48 5 635.0 151.041 8.53 0.92 221160 114108 72 6 670.1 119.051 1.92 0.36 120384 66548 5 7 752.2 139.009 6.51 2.11 232392 92520 55 8 752.6 111.009 3.86 0.42 135892 95292 19 9 755.8 378.131 4.11 0.94 100896 67104 27 10 761.6 377.128 6.79 0.62 952796 663872 20 11 766.9 377.128 9.49 0.64 1412856 1123932 21 12 768.7 275.092 11.00 0.71 634636 458272 44 13 785.7 350.135 21.21 1.15 634952 464080 26 14 789.0 349.132 23.77 0.66 3065928 2359252 8 15 790.3 378.131 8.19 0.86 -1 185176 122 16 791.9 187.099 3.50 0.84 107020 76548 5 17 793.9 307.084 24.40 0.74 2031104 1730160 9 18 806.0 320.124 9.02 1.12 157828 76128 15 19 806.4 139.008 6.36 0.73 767136 235992 58 20 809.8 225.078 2.67 0.38 132724 87476 4 21 813.7 123.045 5.20 0.64 118620 29512 64 22 822.5 183.067 13.16 0.46 1812708 996460 4 23 826.5 399.106 7.32 2.88 232668 188232 82 24 829.3 139.040 4.00 2.85 176756 167544 76 25 832.0 335.116 1.64 0.67 91988 45992 5 26 834.0 319.120 8.03 0.28 -1 1088680 66 27 853.7 377.127 5.64 0.38 2202336 1126176 51 28 854.0 249.078 3.96 0.84 -1 56768 120 29 861.4 378.130 5.24 0.84 202992 121760 48 30 867.0 183.067 10.12 0.31 3021632 2077288 26 31 867.3 320.124 9.90 0.63 779384 573776 14 32 867.4 319.120 9.81 0.35 4110720 3121900 14 33 869.7 361.131 7.52 0.76 352056 291500 30 34 878.2 165.057 17.38 0.72 -1 327928 75 35 879.9 185.118 1.31 0.38 111128 76100 24 36 892.0 377.128 5.81 0.80 3911920 2788816 63 37 899.6 95.048 13.41 0.15 382068 227400 35 38 903.4 291.088 7.58 0.69 299388 156356 55 39 906.0 291.088 8.91 0.65 362176 208244 48 40 908.0 195.067 14.79 0.59 770972 518708 7 41 911.3 195.067 13.46 0.59 665872 428952 5 42 911.5 319.121 12.33 0.35 3845932 2144608 11 43 913.4 183.067 13.27 0.30 2951196 1892408 10 44 914.2 151.041 1.98 0.67 94664 50412 15 45 923.5 361.131 18.28 1.18 863136 588380 15 46 924.4 255.089 3.23 0.70 187248 159992 1 47 925.9 185.048 2.87 1.41 365532 271116 4 48 934.5 213.078 12.24 0.51 -1 493876 56 49 940.0 275.092 9.79 0.76 -1 384676 31 50 941.6 307.084 8.12 0.65 -1 495080 60 51 942.6 417.156 1.71 1.60 76776 33876 14 52 944.1 291.089 6.83 0.61 -1 164104 49 53 957.4 285.043 2.21 0.53 2540484 1706232 41 54 964.5 361.132 5.01 0.87 -1 192828 60 55 964.7 291.089 4.71 0.69 -1 147916 60 56 966.5 349.132 6.48 1.16 -1 95136 60 57 974.7 377.128 3.21 0.37 1392784 690420 35 58 980.3 241.073 2.12 0.36 395860 234524 3 59 987.0 291.089 2.34 0.44 559788 438724 44 60 994.1 379.142 1.56 1.14 63320 47424 14 61 994.5 333.137 6.18 0.61 149196 107640 4 62 998.9 183.068 5.76 0.70 240948 157300 94 63 1000.5 183.068 6.60 0.68 281192 197544 74 64 1001.5 357.137 2.00 0.53 135064 70280 8 65 1002.4 291.089 4.60 0.51 428852 261652 88 66 1008.3 213.078 9.94 0.39 184156 129840 5 67 1018.5 391.143 1.88 0.73 75492 39808 19

Page 200: Desarrollo de técnicas de clustering en datos de ...

184

68 1023.7 139.037 7.27 2.58 285052 108208 122 69 1029.7 255.088 1.60 0.53 148208 87424 15 70 1030.6 307.083 4.35 0.32 932020 515288 44 71 1039.3 415.142 1.85 0.87 1013708 769828 29 72 1043.4 116.929 6.99 0.60 198144 115216 109 73 1047.6 181.052 3.56 0.54 188124 130208 22 74 1051.6 361.132 5.07 0.42 1206188 956144 51 75 1061.5 183.067 6.52 0.52 -1 287456 96 76 1073.8 377.128 2.58 0.31 1443544 1017552 44 77 1074.4 95.048 4.81 0.46 160468 62984 55 78 1087.0 183.067 8.07 0.43 -1 342712 108 79 1104.7 378.131 8.42 1.31 -1 135344 120 80 1109.8 183.068 5.61 0.62 -1 230096 124 81 1121.6 269.047 1.99 0.18 1139724 844852 11 82 1127.8 183.068 4.84 0.77 159196 98532 99 83 1131.8 377.128 2.19 0.32 1583000 1116356 99 84 1144.4 361.133 4.59 0.85 -1 151824 96 85 1146.3 291.089 7.37 0.70 -1 190364 87 86 1147.3 377.128 5.47 0.56 1597316 573076 84 87 1148.9 242.178 3.41 0.54 91328 60532 6 88 1155.9 241.074 2.02 0.45 129044 77856 2 89 1158.6 299.058 1.93 0.66 157324 66056 4 90 1179.9 116.929 15.14 0.54 -1 250104 96 91 1186.8 116.930 18.96 0.54 -1 370516 73 92 1212.2 378.133 7.79 0.46 -1 308964 88 93 1219.0 275.093 9.24 0.63 -1 537904 99 94 1234.9 291.090 5.92 0.41 1492184 752596 20 95 1244.5 311.171 9.71 1.31 -1 183432 97 96 1244.7 127.041 8.59 0.43 565532 352912 4 97 1246.0 377.130 9.84 0.74 9117376 4266920 29 98 1253.0 375.113 3.53 0.82 326600 245704 27 99 1254.5 116.929 9.72 0.45 -1 262924 62 100 1259.6 361.134 3.22 0.61 -1 118256 121 101 1263.8 307.085 3.13 0.33 1250144 1022716 82 102 1277.4 325.187 12.54 0.59 -1 827544 29 103 1277.9 291.090 7.34 0.64 427312 227184 26 104 1278.4 409.241 8.75 0.95 545856 404464 32 105 1279.7 253.219 8.49 0.72 358824 260284 17 106 1282.6 297.155 11.00 1.01 -1 199356 32 107 1293.2 377.129 3.14 0.41 1565600 1013288 79 108 1295.0 311.171 10.90 0.72 -1 374668 65 109 1306.6 339.203 9.44 0.69 -1 469448 57 110 1314.6 377.128 2.97 0.35 564860 422240 36 111 1319.3 309.176 12.51 0.85 -1 287564 36 112 1322.3 291.090 3.31 0.54 196552 108340 54 113 1322.8 253.219 6.82 0.66 -1 395736 90 114 1323.4 309.176 14.77 0.87 -1 362688 35 115 1329.5 293.181 11.67 0.94 -1 305768 50 116 1333.1 343.263 2.00 0.64 159160 106932 5 117 1335.8 297.155 8.49 1.35 -1 264444 103 118 1342.7 315.126 1.64 0.73 84792 49976 15

-------------- Fichero gg10.bin --------------- ..................................... Compuestos encontrados....................................... Nº RT(s) M/z(mDa) Desv.Est.T.(s) Desv.Est.M.(mDa) Área(50%) Área(80%) Nº sec - 1 388.5 123.046 2.02 0.27 624840 417184 18 2 490.5 137.062 1.62 0.56 174172 102800 11 3 628.8 151.041 16.68 0.55 892396 580248 10 4 763.9 139.008 7.29 1.19 188956 103076 49 5 766.7 377.127 9.32 0.70 686348 561076 21 6 769.9 377.127 11.00 0.74 826028 700756 25 7 775.8 213.078 15.47 0.48 875432 474476 24 8 784.7 349.132 20.48 0.74 1387788 1144280 37 9 792.8 187.099 4.18 0.80 108248 76124 5 10 806.8 139.008 6.16 0.63 543264 270256 58 11 812.3 320.125 5.32 0.78 134700 55176 72 12 812.4 225.080 1.44 0.69 56492 36936 6 13 821.7 319.120 13.67 0.63 1977012 924152 9 14 828.5 195.067 4.40 0.85 156944 117144 162 15 832.0 335.116 1.33 0.41 205880 137424 10 16 851.2 377.127 3.86 0.37 814120 530464 47 17 855.3 640.252 4.54 1.42 -1 116492 59 18 855.4 195.067 10.52 0.72 -1 238280 69 19 858.0 149.025 2.88 0.59 76668 53436 47 20 862.8 345.100 6.87 1.65 83148 43864 35 21 867.3 291.088 8.37 1.10 236040 95672 45 22 867.7 319.121 11.37 0.39 -1 2665044 45 23 867.9 361.131 7.79 1.14 273852 225416 4 24 880.7 185.119 1.42 0.82 70140 48552 52 25 883.6 95.048 4.91 0.23 368956 198868 62 26 887.8 377.128 2.03 0.47 2011292 1319300 63 27 889.2 393.122 5.54 1.23 169784 58004 43 28 908.1 291.088 6.02 0.92 -1 142928 151 29 910.8 393.122 3.51 0.64 232504 143600 27 30 911.7 319.121 12.73 0.48 3489092 2101824 12 31 913.4 183.068 13.74 0.29 3006784 1506020 17

Page 201: Desarrollo de técnicas de clustering en datos de ...

185

32 916.2 151.041 2.46 0.36 259480 188440 15 33 924.0 361.131 19.51 1.96 701636 461652 15 34 925.8 185.048 2.77 1.96 142772 85192 8 35 925.9 139.045 6.17 1.46 176272 119484 123 36 927.3 361.131 21.50 1.92 771208 504076 22 37 943.0 417.157 1.84 1.54 65520 44464 25 38 957.5 285.042 2.20 0.22 1272224 953232 26 39 970.5 111.009 3.97 0.40 104108 70716 126 40 971.6 319.120 2.84 0.50 113596 89960 17 41 974.7 377.127 2.70 0.41 910908 462596 33 42 980.3 241.073 2.03 0.29 195196 147624 2 43 987.1 361.132 2.76 0.42 429800 306052 43 44 990.7 333.137 2.86 0.81 115768 71296 2 45 1000.6 361.133 3.30 0.47 262736 164524 109 46 1001.6 275.091 5.36 0.79 220500 72308 97 47 1001.7 357.137 1.77 0.24 452660 332740 11 48 1019.1 391.143 1.96 0.81 80396 47928 23 49 1021.0 183.068 16.86 0.56 1247096 695220 40 50 1030.8 303.126 8.55 1.40 -1 182120 82 51 1041.8 393.123 2.46 0.78 205148 121200 8 52 1043.0 377.128 5.52 0.57 763440 434312 74 53 1048.5 213.078 2.96 0.22 814956 515172 46 54 1059.3 303.126 7.39 1.20 -1 153252 104 55 1073.6 377.129 2.49 0.33 1181424 690128 68 56 1094.0 303.126 12.97 1.12 -1 334340 62 57 1094.3 183.068 13.35 0.56 -1 835784 86 58 1121.4 269.047 1.87 0.54 367824 272492 3 59 1125.2 183.068 4.17 0.65 -1 129344 132 60 1131.4 377.129 2.32 0.27 1505076 1064376 54 61 1132.8 95.048 3.83 0.66 153708 94640 66 62 1144.5 291.089 5.85 0.78 303844 126896 58 63 1146.8 377.128 4.52 0.49 -1 717120 139 64 1148.3 242.178 2.46 0.61 84384 62996 6 65 1148.6 183.068 6.49 0.71 173324 79572 54 66 1149.3 361.133 4.95 0.68 330972 149216 31 67 1156.1 241.073 2.10 0.76 96424 62916 5 68 1158.7 299.058 2.02 0.85 105360 68432 4 69 1182.7 399.109 6.01 1.29 -1 99388 160 70 1195.2 345.100 8.81 0.85 -1 177236 72 71 1207.1 149.025 6.49 0.40 -1 249076 93 72 1213.5 308.087 6.85 1.01 -1 87008 99 73 1224.3 111.009 5.01 0.56 -1 116220 115 74 1224.6 325.186 16.51 1.02 -1 477316 33 75 1239.1 361.133 4.28 0.65 772576 514860 14 76 1245.2 377.128 10.47 0.69 9190636 4435116 24 77 1248.8 116.929 14.56 0.45 -1 427304 16 78 1250.8 375.112 1.87 0.74 536740 363036 34 79 1259.3 361.133 1.84 0.69 141272 92424 62 80 1261.8 415.092 3.46 1.16 88364 71552 78 81 1262.4 755.262 2.16 0.58 701820 628728 36 82 1262.9 101.023 2.97 0.29 98980 62208 66 83 1269.1 409.239 8.14 1.42 263440 150528 16 84 1275.4 325.187 11.76 0.76 841984 434140 45 85 1278.7 291.089 7.96 0.78 358164 150360 33 86 1283.2 311.171 12.44 0.63 811076 546340 42 87 1287.6 311.171 14.72 0.64 990388 725652 43 88 1294.1 377.128 2.65 0.35 1079028 701356 71 89 1304.6 409.240 12.03 1.12 -1 376468 49 90 1305.4 116.929 12.61 0.46 -1 520072 27 91 1308.7 253.218 6.85 0.59 -1 327452 86 92 1315.3 377.128 3.33 0.63 424700 289680 27 93 1317.2 297.155 11.36 0.96 -1 244532 80 94 1317.3 116.929 19.28 0.49 -1 886360 76 95 1321.6 291.089 2.99 0.80 169484 120308 70 96 1324.9 361.133 4.24 0.85 -1 137284 109 97 1333.8 343.263 2.33 0.60 170368 103172 3 98 1342.9 315.127 1.57 1.18 67768 29640 3

-------------- Fichero gg11.bin --------------- ..................................... Compuestos encontrados....................................... Nº RT(s) M/z(mDa) Desv.Est.T.(s) Desv.Est.M.(mDa) Área(50%) Área(80%) Nº sec - 1 388.7 123.046 2.22 0.20 1310436 929508 33 2 491.4 137.061 1.90 0.60 269328 202772 12 3 633.5 151.041 9.02 0.55 -1 148248 73 4 766.1 139.009 4.29 1.86 153428 84468 37 5 771.8 377.127 12.11 0.75 1307456 1097444 61 6 779.8 307.083 16.77 0.88 955536 754324 41 7 785.8 349.131 21.56 0.71 2114212 1344080 9 8 788.4 213.077 23.26 0.50 1798784 1429172 9 9 791.4 187.098 2.53 0.55 99628 64088 10 10 796.1 307.083 25.55 0.84 1525684 1134408 29 11 802.4 319.120 11.12 0.45 435656 255124 13 12 808.3 139.007 6.39 0.61 599624 277472 72 13 810.1 95.047 9.57 0.42 399412 144652 63 14 815.5 393.121 1.64 0.59 81992 59192 20 15 824.8 183.067 11.95 0.46 1115888 599000 5

Page 202: Desarrollo de técnicas de clustering en datos de ...

186

16 832.9 335.115 1.61 0.86 195540 131364 7 17 834.6 319.120 7.86 0.63 -1 650960 108 18 842.0 95.048 6.12 0.30 170816 83848 75 19 854.6 377.127 6.42 0.68 1269152 709420 26 20 858.7 399.107 2.87 1.42 111128 64620 42 21 861.4 111.009 3.67 0.55 -1 71532 104 22 867.6 319.120 10.15 0.46 2561432 1788452 53 23 867.7 183.067 10.55 0.42 2070076 1435560 38 24 868.3 361.131 7.16 0.97 394232 256876 15 25 889.2 377.127 2.90 0.50 2982452 1922284 98 26 889.6 393.121 4.25 0.99 179044 99196 45 27 895.6 195.067 22.06 0.71 877040 654660 7 28 910.1 393.121 3.83 0.73 313176 166224 84 29 911.9 319.120 12.74 0.44 2346680 1374792 31 30 915.5 151.041 2.23 0.38 269396 165696 9 31 924.6 361.130 19.07 1.31 1047740 873192 22 32 925.5 255.088 3.30 1.07 93220 66988 1 33 925.6 185.047 2.81 1.42 213612 148200 5 34 930.8 320.123 8.21 0.94 160404 84104 9 35 932.1 291.087 24.15 0.80 1317972 947584 33 36 939.8 349.130 8.76 1.00 261236 199040 109 37 943.5 417.154 1.71 1.94 71720 54796 13 38 957.9 285.041 2.36 0.38 1334416 703976 22 39 960.9 391.141 4.02 0.91 100364 60692 15 40 970.3 111.009 3.45 0.58 112288 48520 111 41 972.2 319.119 2.76 0.44 113412 68824 13 42 974.9 377.126 2.72 0.30 1081348 535188 31 43 980.9 241.072 2.40 0.30 242696 184472 2 44 987.8 291.088 2.36 0.41 639620 388916 48 45 993.1 213.077 4.72 0.36 412468 245392 7 46 993.8 183.067 3.00 0.73 -1 61560 118 47 1001.4 275.090 6.12 0.59 -1 103444 98 48 1002.1 357.136 1.97 0.36 397432 269976 10 49 1003.4 361.131 4.96 0.62 361328 276020 56 50 1019.3 391.141 2.01 0.54 143092 85688 25 51 1024.3 213.077 3.45 0.47 -1 79640 71 52 1028.1 307.083 5.56 0.72 -1 261164 83 53 1030.0 255.088 1.82 0.72 82672 56576 8 54 1030.4 183.067 10.65 0.56 -1 391596 64 55 1040.4 393.121 1.62 0.91 301660 223976 11 56 1042.4 377.126 6.00 0.51 927024 417776 47 57 1050.5 361.132 4.09 0.22 1480748 1181404 56 58 1053.0 257.067 1.84 0.47 66216 34972 14 59 1062.0 183.067 6.69 0.68 -1 253748 108 60 1075.4 377.127 3.14 0.41 1260544 737336 65 61 1077.2 393.123 1.90 1.34 82368 56176 9 62 1095.3 183.068 12.57 0.54 842968 569456 92 63 1101.4 291.089 17.03 0.71 -1 1023000 21 64 1105.1 325.186 17.24 1.19 -1 294668 62 65 1121.8 269.046 2.07 0.48 477724 321172 5 66 1125.5 183.067 4.23 0.65 172816 107756 69 67 1132.1 377.127 2.37 0.23 1481008 879556 62 68 1137.4 275.091 4.91 0.37 544436 311496 47 69 1144.3 291.088 6.55 0.53 -1 237320 84 70 1147.9 377.126 5.46 0.63 -1 677668 115 71 1148.6 242.177 2.58 0.56 101684 79652 6 72 1149.3 361.132 6.67 0.62 541668 180576 64 73 1156.5 241.072 2.26 0.56 139788 92264 3 74 1158.9 299.056 2.04 0.87 128812 65864 3 75 1194.7 399.108 7.66 1.44 -1 155856 112 76 1203.7 345.099 5.37 0.89 -1 178380 122 77 1212.8 391.141 2.97 0.73 92416 49516 9 78 1215.1 149.025 7.75 0.29 -1 212368 77 79 1217.7 333.136 1.95 1.01 86120 56956 3 80 1218.5 149.025 9.42 0.35 -1 328496 58 81 1226.5 111.009 5.67 0.52 -1 142440 77 82 1231.9 399.109 4.85 1.09 -1 138884 143 83 1236.5 291.088 5.78 0.28 1161840 605992 13 84 1246.2 101.023 7.89 0.42 414008 238080 19 85 1247.7 377.127 8.89 0.52 9387292 4293860 30 86 1251.3 375.111 2.05 0.76 499496 262952 33 87 1259.6 361.131 3.18 0.43 -1 117644 163 88 1263.8 307.083 3.04 0.24 1196996 964312 76 89 1264.6 253.217 5.08 0.86 146028 82656 19 90 1278.3 265.149 11.37 0.64 -1 513016 41 91 1278.7 291.088 7.42 0.69 457660 290816 27 92 1289.7 311.170 14.06 0.79 1029656 514432 34 93 1291.3 311.170 14.91 0.79 1104340 589116 41 94 1293.7 377.127 2.88 0.50 1249236 798896 81 95 1309.0 339.202 9.15 0.64 -1 492220 68 96 1310.9 116.929 18.13 0.31 -1 636072 62 97 1314.7 377.128 2.77 0.41 462368 241668 32 98 1321.9 253.218 6.85 0.66 -1 352960 77 99 1324.8 291.088 4.12 0.99 204984 99760 70 100 1333.4 343.261 2.07 0.64 179380 111272 5 101 1334.5 409.238 8.91 1.11 -1 271092 150

Page 203: Desarrollo de técnicas de clustering en datos de ...

187

-------------- Fichero gg12.bin --------------- ..................................... Compuestos encontrados....................................... Nº RT(s) M/z(mDa) Desv.Est.T.(s) Desv.Est.M.(mDa) Área(50%) Área(80%) Nº sec - 1 386.7 123.045 2.32 0.31 148916 99408 9 2 458.5 151.041 1.93 0.60 141324 96156 5 3 627.6 151.041 15.11 0.67 632228 318220 35 4 763.2 195.066 1.39 0.54 114240 77888 26 5 769.2 139.005 3.76 1.04 99800 47296 78 6 791.4 187.098 3.42 0.63 128752 70944 8 7 806.0 139.005 7.11 0.49 298308 114948 68 8 822.9 183.066 13.70 0.56 720036 230720 31 9 832.2 335.113 1.66 1.03 120784 71592 6 10 838.5 639.244 9.48 1.51 167280 72352 33 11 876.4 320.122 12.01 1.01 -1 281768 126 12 889.1 319.118 22.36 0.48 3543984 2228692 5 13 890.1 639.244 17.98 1.58 725460 429836 2 14 905.3 320.122 5.02 1.17 -1 101068 121 15 925.3 183.066 9.39 0.48 730112 448816 14 16 929.2 183.066 8.46 0.49 529972 248676 16 17 943.6 417.155 1.77 0.63 200552 149428 8 18 957.9 285.040 2.45 0.41 1431656 1072140 32 19 971.4 387.146 1.70 0.67 134264 100116 14 20 980.7 241.072 1.91 0.91 74576 49828 6 21 1001.9 357.136 1.84 0.39 431300 317168 13 22 1016.9 337.109 1.89 1.18 77584 67744 15 23 1040.1 415.141 1.90 0.27 2276512 1664944 73 24 1083.0 357.135 1.72 0.77 71580 52800 3 25 1121.8 269.046 2.09 0.53 532200 353800 5 26 1131.3 271.061 1.92 0.93 111080 74540 2 27 1146.5 377.126 3.56 1.16 102872 84820 33 28 1148.2 242.177 2.65 0.65 115504 69564 6 29 1159.0 299.057 2.10 0.58 535484 350656 10 30 1224.0 325.185 8.30 1.00 -1 263576 113 31 1246.8 377.126 3.77 0.39 695132 484744 51 32 1264.5 253.217 7.68 0.63 -1 176252 65 33 1271.7 311.169 12.28 0.64 -1 568348 47 34 1288.0 325.184 10.35 0.62 -1 567464 53 35 1289.4 297.153 11.68 0.96 -1 300712 45 36 1293.8 377.125 1.97 0.61 287908 188988 31 37 1310.2 253.217 10.29 0.71 704284 434844 46 38 1314.8 377.126 2.88 0.59 137588 92588 16 39 1314.9 311.169 12.90 0.59 -1 804144 59 40 1324.9 309.174 11.08 1.23 -1 318896 113 41 1334.1 343.261 2.47 0.35 168204 103236 4 42 1342.8 315.124 1.34 0.56 107304 70428 7

-------------- Fichero gg13.bin --------------- ..................................... Compuestos encontrados....................................... Nº RT(s) M/z(mDa) Desv.Est.T.(s) Desv.Est.M.(mDa) Área(50%) Área(80%) Nº sec - 1 387.9 123.046 2.36 0.24 369736 200956 14 2 458.2 151.040 1.86 0.24 75544 59768 5 3 489.6 137.061 1.61 0.40 74764 55464 6 4 632.5 151.041 15.38 0.64 506932 257648 14 5 763.8 195.068 1.69 0.52 183428 121908 27 6 768.0 139.006 3.48 0.48 103816 67148 78 7 790.9 187.099 3.07 0.43 120940 90680 7 8 806.8 139.007 6.35 0.70 322620 131376 82 9 832.2 335.116 1.69 0.38 222524 168236 10 10 842.1 320.124 7.10 0.81 -1 206032 67 11 843.1 195.067 7.45 0.80 271104 156776 68 12 859.8 249.078 7.88 0.99 219268 168524 118 13 873.4 319.120 25.41 0.46 8075140 5479220 4 14 877.4 639.248 20.95 1.12 2293220 1564768 1 15 900.2 249.077 8.75 1.03 -1 166568 108 16 906.0 249.077 5.68 1.01 -1 59612 114 17 929.7 195.067 8.87 0.99 178476 121332 48 18 943.3 417.156 1.68 0.78 203988 122544 6 19 957.6 285.040 2.22 0.19 1683952 1137152 35 20 970.1 183.067 7.05 1.07 -1 120584 97 21 971.6 387.147 1.77 0.58 177688 104876 21 22 980.4 241.073 2.12 0.59 255404 168616 13 23 992.7 183.067 6.20 0.68 -1 215916 111 24 1002.1 357.136 1.90 0.30 454244 337868 20 25 1017.0 183.067 7.94 0.75 -1 266264 117 26 1040.1 415.143 2.24 0.51 2926248 1933084 69 27 1058.5 303.124 25.07 1.95 688252 409596 28 28 1063.9 165.057 9.52 0.62 -1 186908 94 29 1075.3 307.083 3.83 0.84 133080 79532 14 30 1077.2 183.067 27.39 0.62 1909740 1269480 26 31 1083.0 357.136 1.76 0.46 99692 72208 4 32 1121.7 269.046 2.00 0.34 547604 367784 6 33 1125.2 311.169 25.40 0.93 -1 526832 64 34 1132.7 271.061 1.96 0.31 120952 80600 3 35 1144.1 183.066 4.44 0.95 119088 40808 113 36 1145.4 377.125 2.77 0.63 200540 96524 22

Page 204: Desarrollo de técnicas de clustering en datos de ...

188

37 1149.1 242.176 3.02 0.85 97164 51760 5 38 1156.2 241.072 2.25 0.45 66412 48948 4 39 1158.9 299.057 2.03 0.62 435908 323892 6 40 1217.7 377.127 5.78 0.91 -1 140384 135 41 1249.3 377.127 2.53 0.46 1172196 760256 70 42 1259.9 321.100 3.74 1.21 115964 76088 5 43 1267.1 311.170 9.71 0.73 -1 435680 74 44 1292.5 377.128 2.79 0.62 449672 352720 52 45 1292.7 325.186 13.17 0.65 -1 741428 62 46 1300.3 265.149 13.18 0.61 -1 656616 84 47 1314.4 377.127 2.65 0.48 200704 180024 21 48 1330.8 326.189 8.47 1.11 -1 98368 143 49 1333.0 343.262 1.90 0.41 172672 102504 7 50 1342.8 315.125 1.35 0.35 217268 186400 11

-------------- Fichero gg14.bin --------------- ..................................... Compuestos encontrados....................................... Nº RT(s) M/z(mDa) Desv.Est.T.(s) Desv.Est.M.(mDa) Área(50%) Área(80%) Nº sec - 1 387.0 123.046 2.48 0.32 503952 335912 17 2 457.1 151.042 1.74 0.55 71420 43676 4 3 489.8 137.060 2.01 1.12 97544 64792 5 4 599.1 151.041 10.42 0.79 249944 141256 4 5 630.8 151.042 8.01 0.59 -1 321996 61 6 659.5 151.041 8.73 0.72 158780 62108 13 7 763.7 195.068 1.72 0.41 280312 169072 36 8 766.8 139.007 5.82 0.57 223408 126304 64 9 791.3 187.100 3.44 0.76 121360 78108 5 10 810.2 139.007 4.27 0.39 603908 298976 94 11 811.2 320.125 9.53 0.84 239436 159120 43 12 828.9 195.068 3.84 0.62 -1 107932 133 13 832.4 335.117 1.86 0.44 184380 141184 5 14 849.4 195.068 7.98 0.56 -1 280608 126 15 873.1 319.121 24.70 0.47 11462520 6684976 3 16 873.1 183.068 28.67 0.32 8892784 5651944 1 17 881.9 249.078 20.86 0.96 806980 466856 60 18 881.9 139.070 7.26 1.16 243388 200192 53 19 883.5 184.071 18.75 0.80 629144 343960 63 20 914.0 95.048 8.36 0.45 320348 167928 93 21 923.3 320.125 8.97 0.69 415848 228748 12 22 930.8 195.068 3.60 0.76 -1 77412 109 23 943.2 417.159 1.71 0.89 273432 246648 12 24 957.3 285.042 2.11 0.39 1773772 1336916 33 25 971.2 387.148 1.68 0.45 233040 173596 23 26 980.2 241.073 2.02 0.33 331376 246640 16 27 998.5 183.067 11.68 0.64 -1 378508 112 28 1001.9 357.136 1.83 0.42 571428 428924 11 29 1039.9 415.143 2.24 0.67 3321164 2622984 79 30 1067.7 183.067 29.01 0.52 -1 2306652 70 31 1068.4 303.124 25.00 0.95 -1 686528 59 32 1077.1 307.082 4.31 1.02 153228 101700 13 33 1082.9 357.136 1.72 0.49 129240 76236 4 34 1121.5 269.046 1.97 0.29 605952 402032 7 35 1132.5 271.061 1.93 0.53 151608 102288 4 36 1132.7 183.067 6.89 0.68 352792 186552 100 37 1145.4 377.126 2.86 0.54 258660 185800 50 38 1147.9 242.177 2.15 0.76 93440 66980 6 39 1156.2 241.073 1.79 0.90 67572 40440 7 40 1158.8 299.057 2.05 0.34 575880 378064 9 41 1166.9 311.169 29.97 0.85 -1 805380 42 42 1171.3 377.126 7.42 0.73 -1 166776 81 43 1240.8 377.127 9.22 0.68 1521304 1239288 71 44 1259.3 321.100 3.55 0.55 129440 70784 4 45 1265.3 253.218 8.17 0.87 324860 179960 36 46 1268.8 265.149 9.77 0.68 -1 492512 44 47 1277.9 339.201 9.70 0.64 -1 424540 46 48 1282.1 325.185 11.46 0.72 -1 604560 34 49 1292.8 377.126 2.45 0.22 607492 397468 53 50 1296.7 321.100 4.28 1.04 146848 56880 7 51 1301.1 309.174 8.30 1.07 -1 121176 50 52 1305.1 311.169 14.06 0.65 -1 752588 30 53 1306.7 253.217 8.81 0.63 -1 360764 26 54 1314.1 377.126 2.55 0.64 251512 149036 23 55 1324.6 265.148 15.84 0.52 -1 796032 73 56 1333.6 343.261 2.20 0.51 176996 108256 7 57 1342.7 315.125 1.33 0.36 230164 199164 11

-------------- Fichero gg15.bin --------------- ..................................... Compuestos encontrados....................................... Nº RT(s) M/z(mDa) Desv.Est.T.(s) Desv.Est.M.(mDa) Área(50%) Área(80%) Nº sec - 1 387.6 153.058 2.17 0.27 1047000 498744 29 2 490.0 137.062 1.69 0.33 369796 220276 22 3 747.3 139.007 8.02 0.80 213084 112136 75 4 761.9 95.049 8.92 0.57 100268 33844 16 5 769.3 139.007 3.16 0.44 267364 104048 109 6 789.8 95.049 4.48 0.57 -1 100596 124

Page 205: Desarrollo de técnicas de clustering en datos de ...

189

7 791.2 187.100 2.76 0.40 132512 96140 12 8 805.2 139.007 7.89 0.27 845820 323836 33 9 815.8 393.124 1.58 0.96 104172 62556 32 10 823.1 319.122 13.41 0.61 685532 295236 12 11 831.5 183.069 12.74 0.46 553992 253516 37 12 833.1 335.118 1.72 0.75 234144 143440 10 13 852.0 377.128 4.32 1.02 171476 118760 33 14 864.8 393.125 1.63 0.71 88928 53564 12 15 868.0 319.123 11.44 0.55 -1 901796 113 16 888.4 393.125 4.22 1.00 100208 53824 44 17 888.9 377.129 2.14 0.39 649632 387140 57 18 906.2 183.069 10.82 0.51 -1 636868 108 19 910.2 393.123 3.77 0.83 153892 91256 34 20 911.1 319.122 12.72 0.58 1227976 818372 5 21 938.2 183.069 7.26 0.64 285448 137300 112 22 943.7 417.160 1.84 1.09 162448 109784 15 23 958.1 285.043 2.04 0.35 979668 576632 17 24 971.2 319.122 1.62 0.18 217796 183620 29 25 971.9 307.085 2.50 0.86 85312 58256 25 26 975.6 377.128 3.48 0.63 396380 285164 13 27 980.3 241.074 1.61 0.49 156748 92524 3 28 988.6 361.133 1.99 0.76 227232 151044 46 29 992.2 213.079 3.31 0.51 168020 111840 5 30 1000.0 275.093 3.50 0.57 86652 61564 65 31 1002.7 357.138 1.76 0.72 305292 182992 8 32 1002.9 361.134 4.27 0.79 173600 91760 123 33 1019.9 391.145 1.83 0.70 63056 46764 25 34 1040.9 393.122 1.70 0.28 461544 345528 38 35 1042.4 307.084 7.80 0.78 205872 92492 84 36 1045.0 181.052 4.02 0.57 229300 116432 9 37 1049.1 213.079 3.17 0.27 912952 655436 55 38 1052.6 257.068 2.31 0.49 114312 76688 8 39 1072.8 377.129 2.37 0.65 564464 359212 58 40 1077.7 393.126 1.66 1.93 73276 54064 11 41 1078.6 183.068 16.53 0.48 -1 709144 87 42 1106.1 377.128 8.49 0.78 -1 501900 82 43 1108.4 307.085 7.62 0.88 -1 187848 89 44 1120.1 183.069 7.30 0.54 265404 137116 72 45 1122.3 269.048 2.24 0.15 498736 330796 2 46 1132.8 377.129 2.14 0.54 1146548 689884 39 47 1136.1 307.085 3.37 0.35 408036 267432 28 48 1146.3 361.134 3.37 0.56 135192 72508 29 49 1146.4 378.132 3.64 0.77 -1 104212 96 50 1148.4 242.179 2.27 0.42 108396 70548 4 51 1149.1 291.090 7.31 0.98 208536 71152 46 52 1152.4 377.128 4.44 0.62 -1 176440 75 53 1156.3 241.074 1.60 0.45 120568 94080 2 54 1159.2 299.059 1.77 0.42 114396 84524 4 55 1160.3 361.133 4.80 1.18 142028 65384 121 56 1188.1 377.128 10.92 1.01 -1 999424 83 57 1198.0 378.131 7.59 0.99 -1 262780 81 58 1211.2 399.109 8.61 1.06 213008 77016 34 59 1213.4 275.092 9.45 0.72 -1 556096 72 60 1215.4 377.127 5.67 0.49 -1 927280 106 61 1218.6 333.136 1.81 0.51 138700 103768 6 62 1232.8 265.150 11.40 0.89 -1 388840 98 63 1240.2 361.133 4.09 0.79 450532 317004 18 64 1250.1 377.129 3.77 0.82 5158128 3275800 72 65 1252.4 375.114 2.29 1.27 259660 191192 29 66 1263.0 361.134 3.21 0.54 123792 65780 43 67 1272.5 297.155 8.18 1.07 -1 136916 42 68 1275.3 311.172 12.70 0.67 -1 727828 38 69 1278.6 291.090 7.25 1.00 198596 127196 47 70 1294.3 325.188 10.83 0.79 -1 633948 55 71 1294.8 377.129 2.08 0.59 500336 303580 50 72 1300.9 391.146 2.90 1.34 71332 33624 9 73 1315.5 361.134 2.64 0.76 228124 109420 35 74 1316.0 253.220 11.16 0.49 946500 480268 38 75 1324.8 291.090 3.73 0.77 114788 44620 80 76 1325.3 339.204 15.12 0.60 1401596 727004 70 77 1334.2 343.263 2.10 0.67 127100 85964 4 78 1343.2 315.127 1.37 0.77 111948 77824 6

-------------- Fichero gg16.bin --------------- ..................................... Compuestos encontrados....................................... Nº RT(s) M/z(mDa) Desv.Est.T.(s) Desv.Est.M.(mDa) Área(50%) Área(80%) Nº sec - 1 387.4 153.058 2.47 0.24 2464376 1296160 47 2 443.0 199.063 2.21 0.66 78300 36696 22 3 490.6 137.062 1.95 0.48 482832 366284 24 4 726.6 181.053 1.64 0.15 134092 93492 35 5 758.4 139.007 12.69 0.44 373436 169144 20 6 768.8 241.074 5.04 0.84 149540 65228 51 7 773.7 111.010 7.83 0.47 217904 112524 98 8 792.3 187.099 3.46 0.58 136504 89584 7 9 806.0 139.007 7.06 0.27 1255584 623952 90 10 815.3 393.122 1.54 0.70 155896 120564 19

Page 206: Desarrollo de técnicas de clustering en datos de ...

190

11 821.7 183.068 14.64 0.53 714204 395668 4 12 832.6 335.116 1.47 0.25 755520 509484 29 13 834.6 319.121 6.26 0.62 -1 368044 113 14 849.4 95.048 5.80 0.53 187484 85592 82 15 852.6 377.126 4.64 0.52 278296 156468 11 16 859.1 275.092 4.10 1.01 117316 67372 72 17 865.1 393.121 2.05 0.44 131932 71896 12 18 866.8 319.121 12.12 0.49 -1 1671500 22 19 866.8 183.068 11.42 0.32 -1 1189692 60 20 876.5 195.068 14.09 0.74 421284 273596 53 21 884.0 95.049 3.79 0.45 196820 100112 54 22 888.1 377.128 2.06 0.42 1052608 707036 53 23 892.7 183.068 23.89 0.36 3098288 1880036 4 24 907.5 320.125 11.51 0.91 358136 227200 91 25 912.3 319.121 13.16 0.54 2022968 1324780 6 26 912.8 393.123 4.13 0.90 137796 70872 29 27 950.3 379.111 1.60 2.60 67772 42564 4 28 957.7 285.042 1.84 0.16 676288 397720 12 29 971.4 319.120 2.05 0.34 626144 479848 48 30 975.5 377.126 2.71 0.52 293472 161968 31 31 977.4 229.073 1.63 0.57 137156 81900 7 32 985.7 393.123 1.86 1.39 70064 46272 11 33 988.6 361.131 1.99 0.57 244916 131752 63 34 999.5 275.090 5.80 1.13 141116 49120 81 35 1002.4 357.136 1.69 0.52 209780 122268 6 36 1003.2 361.131 4.47 0.81 190640 114664 90 37 1018.2 393.122 1.93 0.86 130292 95260 22 38 1022.3 183.068 13.07 0.65 -1 388684 54 39 1023.5 213.078 1.83 0.58 89020 59816 22 40 1024.2 377.127 6.01 0.95 -1 222944 113 41 1030.3 307.084 5.65 0.83 174912 137988 51 42 1041.8 393.124 2.24 0.27 1845404 1386588 44 43 1046.4 377.129 6.16 0.75 546508 214500 98 44 1048.0 137.062 6.31 0.55 116736 69444 17 45 1049.6 361.134 3.11 0.45 862560 585416 46 46 1053.0 257.069 2.19 0.81 142696 101976 4 47 1074.1 377.128 3.16 0.62 801188 560364 40 48 1074.8 95.049 7.82 0.46 225552 63272 114 49 1078.0 393.124 2.14 1.07 163244 86700 13 50 1086.1 183.068 22.90 0.52 1205264 910384 19 51 1100.1 213.078 2.42 0.66 79192 52512 26 52 1106.0 275.092 7.84 0.92 -1 275460 128 53 1107.1 325.186 15.51 1.36 -1 260972 94 54 1122.1 269.047 2.16 0.33 330464 264768 4 55 1137.6 377.129 4.66 0.27 1689352 1001664 39 56 1146.4 361.134 3.10 0.62 174564 91824 49 57 1148.0 149.026 4.57 0.76 -1 40812 156 58 1176.5 378.133 9.68 0.74 -1 348540 93 59 1190.9 307.086 10.96 0.46 -1 735468 65 60 1192.2 139.038 5.12 0.68 -1 123180 91 61 1204.0 377.129 11.51 0.37 3371552 1455816 30 62 1213.8 407.140 2.40 0.73 91232 47792 16 63 1218.5 333.138 1.76 0.20 552928 407032 17 64 1224.8 139.038 4.44 0.68 -1 82648 96 65 1229.0 111.010 5.99 0.55 165992 81040 122 66 1240.2 361.133 4.02 0.93 495840 357572 23 67 1249.6 377.129 4.54 0.66 6877676 4061412 75 68 1251.9 375.112 1.99 0.71 242900 143332 29 69 1262.4 361.133 3.19 0.92 177400 109924 49 70 1266.3 253.219 5.63 0.90 208140 129180 20 71 1268.1 311.171 8.47 0.48 -1 569380 49 72 1274.4 325.187 11.32 0.74 831856 474532 49 73 1289.7 253.219 7.48 0.61 -1 143020 44 74 1294.4 377.128 2.52 0.76 447728 247820 43 75 1296.8 339.203 8.61 0.92 -1 391784 72 76 1301.2 297.154 16.24 1.21 -1 350152 46 77 1315.2 361.131 2.52 0.98 318420 213456 44 78 1323.6 325.186 16.58 0.57 -1 959436 36 79 1326.4 281.250 8.26 0.74 -1 184024 80 80 1334.1 343.262 2.09 0.88 128732 109860 6 81 1343.2 315.127 1.47 0.56 59876 49436 16

-------------- Fichero gg17.bin --------------- ..................................... Compuestos encontrados....................................... Nº RT(s) M/z(mDa) Desv.Est.T.(s) Desv.Est.M.(mDa) Área(50%) Área(80%) Nº sec - 1 387.4 153.058 1.85 0.30 463184 306028 21 2 490.3 137.061 1.59 0.59 153548 90856 12 3 767.8 139.007 3.66 0.49 99184 62988 76 4 792.7 187.100 3.47 0.38 132168 77976 7 5 804.9 139.007 8.52 0.51 336420 147036 40 6 820.9 319.121 12.70 0.87 253508 67768 4 7 829.5 183.069 5.35 0.78 -1 113012 99 8 833.0 335.117 1.74 0.72 118952 90004 8 9 888.4 377.128 1.85 1.15 125420 92072 30 10 890.8 319.122 22.36 0.63 1441612 1070476 28 11 928.5 183.070 5.47 0.98 170184 114204 100

Page 207: Desarrollo de técnicas de clustering en datos de ...

191

12 943.9 417.160 1.96 0.44 362072 247860 14 13 958.1 285.044 2.14 0.13 1231892 910908 26 14 971.9 387.150 1.61 0.46 188152 142256 26 15 980.4 241.074 1.77 0.55 119580 69140 7 16 993.1 311.172 19.59 0.94 -1 372908 68 17 1002.6 357.138 1.76 0.27 413848 305664 8 18 1007.1 311.172 27.03 0.92 -1 433124 64 19 1017.4 337.112 2.02 1.21 57608 33996 11 20 1040.6 415.146 2.11 0.60 2572332 2024464 77 21 1048.6 213.080 2.41 0.78 165944 125096 27 22 1073.7 377.128 3.10 0.85 106188 60244 41 23 1083.7 357.138 2.03 0.61 208864 139780 5 24 1122.5 269.047 2.41 0.23 703744 466896 6 25 1132.8 377.127 2.02 0.63 176088 90560 49 26 1146.8 377.127 3.80 0.55 155628 83600 111 27 1148.6 242.178 2.41 0.46 116788 91676 12 28 1159.3 299.057 1.97 0.37 445188 290220 6 29 1169.6 377.127 6.43 1.12 -1 136008 112 30 1177.4 329.235 2.59 0.86 92364 45940 4 31 1190.3 377.128 5.71 1.03 -1 113692 111 32 1203.5 339.202 7.55 1.00 -1 114704 76 33 1211.7 377.127 6.88 0.95 -1 142184 84 34 1235.3 339.202 10.59 0.76 -1 250480 67 35 1249.1 377.128 3.73 0.41 1402000 958404 78 36 1265.2 253.219 8.02 0.74 262156 92164 58 37 1273.1 311.171 12.27 0.63 -1 762968 45 38 1286.2 265.150 7.67 0.64 -1 441200 74 39 1294.4 377.128 1.69 0.54 183124 132896 28 40 1297.6 321.100 4.09 0.98 122452 72668 4 41 1301.4 309.175 11.14 0.91 -1 313324 50 42 1314.3 377.128 2.45 1.58 82924 56756 14 43 1324.8 325.186 14.34 0.67 -1 964300 96 44 1334.1 343.262 2.12 0.65 121088 81792 7 45 1340.8 373.133 1.33 0.59 111532 78500 9 46 1343.0 315.126 1.38 0.28 347176 234668 10

-------------- Fichero gg18.bin --------------- ..................................... Compuestos encontrados....................................... Nº RT(s) M/z(mDa) Desv.Est.T.(s) Desv.Est.M.(mDa) Área(50%) Área(80%) Nº sec - 1 387.5 153.058 1.85 0.28 535016 347992 25 2 490.8 137.062 1.67 0.89 162720 96284 9 3 768.5 139.007 3.73 0.66 143948 85544 91 4 792.7 187.100 3.61 0.34 146844 94460 8 5 806.3 139.007 7.36 0.41 532084 231144 51 6 812.5 183.068 8.57 0.93 182432 50128 46 7 825.2 319.120 9.59 0.76 394252 84084 29 8 833.0 335.116 1.63 0.47 117028 70480 9 9 837.9 183.068 5.94 0.54 -1 153588 113 10 847.4 377.126 2.10 0.70 85628 59460 46 11 868.5 319.120 11.11 0.56 -1 738700 64 12 869.0 183.068 12.00 0.39 -1 595604 50 13 886.0 95.048 5.89 0.63 135124 43424 45 14 888.6 377.127 2.28 0.88 416792 202108 46 15 901.3 319.121 8.64 0.61 -1 553584 102 16 930.3 183.068 9.05 0.72 372556 178288 75 17 931.2 319.121 7.95 0.58 328588 134112 19 18 944.3 417.159 1.69 0.31 285672 168032 12 19 958.6 285.043 2.27 0.30 1461396 1094868 31 20 972.3 387.149 1.57 0.41 154880 102228 23 21 976.6 377.128 3.29 0.82 226588 202360 12 22 981.1 241.074 1.92 0.61 112220 83472 3 23 988.7 361.134 2.08 1.24 95820 64636 39 24 1002.8 357.139 1.80 0.51 420044 306484 16 25 1040.8 415.145 2.13 0.54 2286168 1499280 64 26 1044.2 181.053 4.04 0.88 133724 58700 8 27 1048.7 377.129 6.04 1.51 173212 85904 89 28 1048.9 213.079 2.73 0.41 412352 317308 43 29 1075.3 377.128 2.86 0.50 241204 167740 31 30 1075.9 183.069 25.01 0.77 811372 398988 58 31 1083.8 357.138 2.00 0.48 141616 93928 5 32 1122.4 269.047 2.27 0.45 682648 540892 9 33 1132.7 377.129 2.22 0.61 382628 246180 49 34 1132.9 265.150 35.48 0.98 -1 972604 69 35 1146.4 377.128 3.57 0.44 336656 199764 141 36 1148.7 242.178 2.31 0.81 104488 56016 8 37 1157.3 241.074 2.03 0.50 64740 43556 1 38 1159.6 299.058 1.90 0.42 393712 286340 8 39 1178.4 329.236 2.36 0.86 95748 62792 5 40 1188.1 377.128 8.32 1.00 -1 375608 116 41 1208.5 307.084 6.26 0.79 -1 174288 85 42 1225.4 311.171 11.15 0.72 -1 432292 83 43 1240.3 361.133 4.19 0.62 176936 113400 18 44 1248.1 377.128 5.25 0.29 2595428 1656756 61 45 1252.4 375.112 2.13 0.86 144284 95412 25 46 1263.5 265.150 9.38 0.65 -1 396092 62 47 1282.4 325.186 8.36 0.77 -1 445860 87

Page 208: Desarrollo de técnicas de clustering en datos de ...

192

48 1293.6 377.127 2.63 0.30 316596 210216 37 49 1296.6 253.218 8.84 0.76 -1 282992 67 50 1303.5 265.150 13.78 0.63 -1 565812 36 51 1313.9 377.128 1.72 0.38 126644 95480 22 52 1324.1 325.186 15.54 0.60 -1 1139536 50 53 1325.8 253.219 8.29 0.47 -1 397840 78 54 1334.4 343.262 2.15 0.42 123320 82936 4 55 1341.1 373.132 1.38 0.71 98572 66352 7 56 1343.3 315.126 1.40 0.28 289336 199892 10

-------------- Fichero gg19.bin --------------- ..................................... Compuestos encontrados....................................... Nº RT(s) M/z(mDa) Desv.Est.T.(s) Desv.Est.M.(mDa) Área(50%) Área(80%) Nº sec - 1 387.5 153.058 2.15 0.27 1560324 930904 40 2 490.4 137.062 1.88 0.33 449504 237652 23 3 671.2 119.052 1.94 0.36 68032 41108 4 4 744.3 139.008 6.59 0.80 200860 106388 74 5 763.5 95.049 7.36 0.40 124016 60496 17 6 766.8 139.008 4.49 0.54 271408 146184 94 7 789.4 349.134 22.46 1.10 597272 292804 46 8 791.6 187.100 2.63 0.57 138868 107564 10 9 806.1 139.007 7.27 0.24 1020652 454368 76 10 806.3 319.122 9.98 0.66 419836 270488 25 11 815.7 393.123 1.58 0.57 146024 113484 36 12 828.1 183.069 15.11 0.39 963696 480336 6 13 833.2 335.118 1.78 0.57 404124 242008 13 14 836.2 319.122 7.15 0.46 -1 413576 103 15 850.5 377.128 3.10 0.95 262896 137208 20 16 856.7 95.049 9.70 0.58 313684 221976 75 17 861.4 275.093 5.44 0.80 158380 46828 73 18 864.6 393.123 1.59 0.94 108200 64948 5 19 868.5 319.122 11.59 0.44 -1 1481780 70 20 879.7 195.069 15.64 0.79 -1 252040 55 21 885.1 95.049 3.08 0.19 186164 118152 62 22 888.6 377.129 2.32 0.30 1126484 581788 52 23 894.6 320.125 20.34 1.08 675136 452384 11 24 912.2 377.128 4.36 0.90 -1 86176 161 25 912.6 319.122 13.04 0.74 1890980 1190404 8 26 914.0 393.123 5.22 0.96 146240 81588 14 27 929.5 183.068 9.22 0.49 589704 304548 20 28 943.9 417.158 1.61 0.79 161572 121004 10 29 944.5 377.127 6.64 1.31 -1 161144 133 30 955.6 287.053 2.23 2.23 72320 57168 2 31 957.9 285.043 1.99 0.20 1361240 801348 18 32 971.7 319.121 1.90 0.42 223584 148856 35 33 973.7 275.093 2.08 1.00 111048 51860 74 34 976.5 377.127 3.34 0.68 632512 361400 12 35 977.5 229.073 1.72 1.24 55340 49116 5 36 980.7 241.073 1.79 0.26 357144 213516 3 37 988.7 361.132 2.36 0.54 264484 157532 37 38 990.9 183.068 6.38 0.98 -1 33860 84 39 992.3 333.136 3.22 0.79 67440 55508 1 40 997.0 183.068 9.37 0.84 -1 204908 68 41 998.2 379.141 3.57 1.40 56420 41084 11 42 999.8 275.091 3.86 1.10 106404 45544 50 43 1001.7 361.132 3.49 0.89 167488 106096 83 44 1002.7 357.137 1.76 0.52 446124 333624 13 45 1018.7 393.124 2.19 1.07 72192 47548 26 46 1040.9 393.122 1.70 0.47 583916 439288 42 47 1045.4 181.052 4.33 0.63 268572 114344 6 48 1047.5 377.127 6.83 1.04 563696 251992 102 49 1049.2 361.133 2.95 0.60 899740 613208 56 50 1052.4 257.068 1.83 1.00 120844 80616 4 51 1072.8 265.149 27.53 0.96 853828 466576 21 52 1075.2 377.127 3.34 0.55 748568 452732 47 53 1077.4 183.068 16.90 0.55 -1 747352 46 54 1077.9 393.122 1.73 0.72 106132 61668 15 55 1079.2 325.185 18.77 0.93 -1 409572 20 56 1084.3 357.136 2.29 1.50 57328 46640 2 57 1085.4 325.185 22.27 1.07 -1 515528 20 58 1099.5 311.170 14.69 1.03 -1 304836 57 59 1106.9 311.170 18.75 0.98 -1 410620 26 60 1110.7 291.088 13.08 0.86 -1 243744 42 61 1116.0 183.067 3.15 0.56 133900 79792 137 62 1122.3 269.046 2.24 0.38 715016 471172 10 63 1127.0 183.067 3.00 0.75 97228 60456 68 64 1132.7 377.126 2.18 0.50 1345136 802180 84 65 1144.5 361.132 3.83 1.06 146412 96012 33 66 1145.7 291.089 5.62 0.82 180712 86744 76 67 1148.4 377.127 5.06 0.70 1055524 546228 115 68 1148.7 242.177 2.47 0.55 106676 69612 2 69 1156.7 241.073 1.54 0.37 127048 105692 2 70 1159.4 299.057 1.86 0.48 146164 103972 4 71 1176.4 149.026 9.99 0.73 -1 180948 104 72 1190.0 139.038 8.29 0.94 -1 193600 111 73 1199.8 363.147 1.78 1.13 63904 55580 15

Page 209: Desarrollo de técnicas de clustering en datos de ...

193

74 1203.0 345.101 8.88 1.19 351796 215552 60 75 1216.4 378.132 5.04 0.78 -1 245308 144 76 1218.7 333.138 1.83 0.39 172428 127460 7 77 1230.5 95.049 4.48 0.34 -1 80364 153 78 1240.2 361.134 4.13 0.54 475096 277576 13 79 1242.7 377.129 10.56 0.83 6083080 4068548 36 80 1253.0 375.114 2.74 1.49 169824 121916 30 81 1261.0 361.133 2.14 0.76 150228 88596 83 82 1270.5 253.219 7.23 0.69 223852 106828 30 83 1273.6 325.187 12.59 0.89 -1 672920 39 84 1277.9 311.172 13.56 0.76 -1 636044 42 85 1294.2 377.129 2.25 0.46 701184 419028 59 86 1302.0 293.182 9.68 1.12 -1 142636 48 87 1307.1 253.219 7.98 0.62 -1 260392 32 88 1310.0 325.188 9.21 0.56 -1 600236 57 89 1314.9 377.129 2.43 1.01 249828 191492 22 90 1317.5 361.133 4.37 0.96 234896 145432 16 91 1324.3 291.090 3.07 0.64 101044 66552 116 92 1334.1 343.264 2.06 0.75 118456 58556 5 93 1343.2 315.128 1.36 0.63 183904 127376 3

-------------- Fichero gg20.bin --------------- ..................................... Compuestos encontrados....................................... Nº RT(s) M/z(mDa) Desv.Est.T.(s) Desv.Est.M.(mDa) Área(50%) Área(80%) Nº sec - 1 387.6 153.058 2.49 0.43 797920 434856 24 2 490.6 137.062 1.92 0.49 289256 159388 13 3 523.1 139.005 2.19 0.41 73132 51780 26 4 756.0 377.127 3.66 1.24 124208 109472 23 5 763.2 139.007 8.32 0.46 325208 156640 44 6 764.9 127.042 8.38 0.40 191804 89964 47 7 786.8 349.132 20.92 0.78 879912 708568 44 8 787.8 183.069 5.13 1.65 114348 68196 66 9 792.3 187.100 3.16 0.59 122528 79612 7 10 806.6 139.007 6.97 0.28 1240212 498296 90 11 808.9 225.079 4.28 0.71 78256 52384 4 12 815.9 393.122 1.31 0.60 104648 71524 22 13 828.3 183.068 11.50 0.49 1041444 458140 17 14 832.6 335.117 1.55 0.51 377832 228032 11 15 834.7 319.121 7.41 0.41 -1 517560 109 16 851.6 95.049 8.04 0.50 331632 206148 59 17 853.2 377.127 4.76 0.62 447452 217004 22 18 855.6 95.049 10.32 0.51 428436 271064 53 19 861.2 275.093 4.92 0.85 -1 53540 74 20 862.3 139.047 1.51 1.13 43792 11200 31 21 865.4 393.123 1.82 0.57 91124 39048 10 22 867.8 319.121 11.55 0.42 -1 1715420 24 23 868.8 183.068 10.78 0.40 -1 1248296 55 24 881.1 185.119 1.28 0.68 105908 74772 24 25 888.0 195.068 20.92 0.75 708576 495752 48 26 888.3 95.049 2.67 0.20 257876 132216 57 27 888.8 377.127 2.36 0.48 1795156 938560 65 28 911.4 307.083 4.31 0.73 -1 72416 73 29 911.5 377.126 3.21 0.80 -1 120332 59 30 912.2 319.120 12.86 0.44 2348992 1261920 7 31 913.6 95.048 5.33 0.54 -1 119412 116 32 923.5 255.088 2.25 0.99 76088 41080 9 33 929.3 320.124 8.58 0.79 168108 86220 18 34 944.2 417.157 1.64 0.82 140728 105028 9 35 946.0 307.083 5.31 1.08 133172 60232 117 36 953.1 377.126 2.25 1.22 91812 82656 132 37 958.3 285.041 2.14 0.14 1517292 1134028 34 38 971.7 319.120 1.81 0.61 221380 128920 25 39 973.0 307.083 2.26 0.61 131864 78644 85 40 977.1 377.127 3.30 0.61 709652 347752 12 41 981.1 241.073 1.89 0.75 372724 279300 3 42 988.1 361.131 2.77 0.40 271332 197600 35 43 993.0 333.135 3.73 0.81 71552 60276 0 44 994.5 183.067 8.94 0.87 257532 100792 79 45 999.2 275.091 3.40 1.31 115584 59708 69 46 1000.7 361.131 2.81 0.72 177676 103208 80 47 1002.8 357.136 1.75 0.66 191572 113944 4 48 1004.4 213.077 4.86 0.81 111876 79424 17 49 1011.2 377.125 5.22 1.16 -1 141832 146 50 1028.8 183.067 11.14 0.64 -1 302024 64 51 1029.6 307.083 5.48 0.90 225212 163720 56 52 1031.3 255.087 1.92 0.72 139144 92844 14 53 1040.5 415.141 2.01 0.57 1607700 1078244 48 54 1043.3 377.125 5.87 0.67 556844 231220 40 55 1044.7 181.051 3.95 0.69 225448 112632 11 56 1049.0 361.131 2.81 0.38 881080 513436 59 57 1053.4 257.067 1.90 1.09 99360 53108 7 58 1059.8 183.067 6.61 0.55 -1 194576 103 59 1074.9 377.126 3.06 0.69 722176 465312 62 60 1078.0 393.122 1.76 0.82 99176 73228 15 61 1110.5 183.067 6.69 0.67 -1 203292 130 62 1113.7 183.067 5.04 0.60 -1 125368 124

Page 210: Desarrollo de técnicas de clustering en datos de ...

194

63 1122.4 269.046 2.30 0.22 1204240 798204 9 64 1128.1 183.067 3.28 0.73 -1 69860 110 65 1133.1 377.125 2.12 0.30 1186024 844020 95 66 1144.4 361.130 4.64 1.03 166676 77228 71 67 1148.2 377.125 5.15 0.57 1005244 414332 88 68 1148.4 242.176 1.95 0.81 109736 73000 5 69 1157.5 241.072 2.31 0.45 120560 79400 3 70 1158.5 361.132 3.88 1.01 150660 86280 123 71 1159.6 299.057 1.88 0.63 168388 99780 4 72 1169.3 149.026 6.87 0.69 -1 66860 94 73 1174.6 345.099 5.83 1.03 -1 93124 90 74 1202.1 378.131 7.08 0.64 -1 182172 116 75 1210.0 345.099 9.10 1.06 -1 225876 87 76 1214.9 377.127 4.28 0.41 -1 715132 126 77 1218.9 333.136 1.85 0.32 127916 95276 4 78 1226.1 149.026 6.53 0.58 -1 175132 115 79 1239.7 361.132 4.36 0.77 493184 311112 14 80 1249.8 377.129 4.37 0.85 5610288 3321752 61 81 1252.3 375.113 2.19 0.52 376148 283588 35 82 1260.4 361.133 2.79 0.66 141932 69028 106 83 1269.2 325.187 10.44 0.56 782048 425036 54 84 1273.4 291.090 8.54 0.86 308628 155364 7 85 1275.8 253.219 9.46 0.63 347876 213064 33 86 1277.4 291.090 6.68 0.90 237568 119616 19 87 1290.9 265.151 14.02 0.56 -1 723384 58 88 1294.1 377.129 2.28 0.42 705168 456352 64 89 1315.1 377.129 2.53 0.63 284768 211092 28 90 1319.6 339.204 10.05 0.50 -1 592832 69 91 1323.9 361.133 3.11 0.80 135032 85756 68 92 1332.4 253.220 10.76 0.62 -1 633492 102 93 1334.4 343.264 2.13 0.61 121828 85672 5 94 1343.2 315.127 1.56 0.85 141772 86144 2

-------------- Fichero gg21.bin --------------- ..................................... Compuestos encontrados....................................... Nº RT(s) M/z(mDa) Desv.Est.T.(s) Desv.Est.M.(mDa) Área(50%) Área(80%) Nº sec - 1 387.7 153.058 2.34 0.27 1275248 554848 35 2 490.8 137.061 1.74 0.47 275740 163208 14 3 756.8 349.133 4.11 0.81 139368 97592 26 4 763.2 139.008 8.00 0.42 365212 181356 45 5 773.0 213.079 13.06 0.77 436780 313204 19 6 776.7 111.010 8.41 0.60 246384 131456 49 7 785.2 377.128 11.50 1.10 -1 365080 89 8 788.8 95.049 7.22 0.47 -1 143152 104 9 792.1 187.100 2.87 0.45 120000 77500 10 10 806.2 319.122 10.46 0.43 477768 280776 12 11 807.2 139.008 6.43 0.38 1013832 432672 58 12 811.4 225.080 2.00 0.93 66032 59276 7 13 815.5 393.123 1.54 1.02 108892 65780 25 14 823.3 183.069 14.74 0.46 831952 390256 3 15 832.4 335.117 1.54 0.44 300232 181916 9 16 836.5 319.122 6.82 0.62 -1 475856 125 17 851.6 377.128 3.99 0.62 369932 196284 35 18 862.5 307.085 5.41 0.47 125208 87264 45 19 864.7 257.069 1.42 1.02 66580 20104 4 20 868.5 319.122 11.56 0.45 -1 1451532 40 21 868.7 183.069 10.75 0.42 -1 1107816 77 22 868.7 361.132 8.52 1.53 268208 190224 14 23 881.3 185.118 1.35 0.80 79112 54188 17 24 887.2 393.123 4.53 0.91 100032 56176 45 25 888.6 377.128 1.91 0.48 1455064 844728 50 26 888.7 95.049 2.85 0.29 217244 143920 71 27 909.7 291.089 7.42 0.89 -1 144640 90 28 912.8 377.127 4.72 1.12 -1 133156 113 29 912.9 319.121 13.02 0.67 1988264 1105824 4 30 913.7 393.122 4.29 0.82 187512 106648 10 31 919.8 320.124 6.00 0.77 154120 70828 68 32 931.3 361.130 24.44 1.88 754652 542420 34 33 936.9 183.068 7.09 0.56 448864 245148 22 34 939.2 377.126 10.56 1.15 -1 238460 83 35 944.1 417.157 1.65 0.71 153432 90080 8 36 946.5 377.126 6.35 1.23 -1 147204 81 37 956.5 287.050 2.58 3.34 82804 62156 4 38 958.1 285.041 2.06 0.29 1794560 1324300 27 39 971.8 319.119 1.91 0.45 203684 119976 28 40 972.6 307.082 2.46 0.57 149128 88288 40 41 976.1 377.126 3.67 0.56 680752 520644 11 42 976.6 378.129 3.43 0.70 141928 111020 8 43 980.5 241.072 1.73 0.55 264372 192676 2 44 989.3 361.131 1.88 0.42 332452 213988 88 45 991.2 333.135 3.25 0.62 99552 47688 7 46 1002.6 357.136 1.73 0.35 307104 178124 5 47 1003.0 275.091 5.41 1.27 160004 55176 76 48 1003.0 361.131 4.39 0.44 218568 89532 51 49 1006.4 291.088 6.91 0.53 237184 160376 19 50 1010.1 307.083 4.82 0.65 -1 78596 107

Page 211: Desarrollo de técnicas de clustering en datos de ...

195

51 1025.1 213.077 3.42 1.63 90160 62580 48 52 1027.0 377.126 5.61 0.62 -1 206420 111 53 1029.9 307.083 4.89 0.82 209904 140964 48 54 1031.2 255.087 1.94 0.49 83340 55612 10 55 1040.5 415.141 1.99 0.95 993892 533704 30 56 1043.1 151.042 2.71 0.56 75620 39772 15 57 1043.2 275.091 5.46 0.83 217480 80464 8 58 1046.3 181.051 4.49 0.71 282536 194176 2 59 1046.6 363.120 2.75 5.05 62092 47112 11 60 1048.8 377.126 4.96 0.86 532440 233788 89 61 1050.1 361.132 3.39 0.55 1136228 869708 53 62 1053.5 257.068 1.96 0.97 92968 50300 7 63 1075.7 377.127 3.64 0.45 797124 520272 55 64 1077.9 393.123 1.72 1.14 92756 68300 11 65 1083.1 183.068 19.35 0.60 -1 785116 80 66 1109.5 311.170 19.44 1.02 -1 407696 28 67 1115.9 311.170 22.97 0.99 -1 529416 38 68 1122.7 269.047 2.44 0.26 872616 577936 9 69 1125.8 183.068 4.48 0.60 -1 98112 86 70 1133.1 377.128 2.03 0.30 1288956 834772 48 71 1137.6 307.084 4.38 0.63 497196 380848 36 72 1145.4 361.132 3.48 0.72 197764 134488 49 73 1148.1 377.126 4.79 0.55 -1 564412 94 74 1148.9 242.177 2.08 0.43 93824 69604 5 75 1149.7 291.088 8.15 0.76 -1 125336 63 76 1157.4 241.073 2.21 0.61 139416 93504 2 77 1158.5 361.132 4.17 0.90 -1 126092 97 78 1159.7 299.057 1.97 0.44 198840 146832 3 79 1186.4 377.127 12.71 0.55 -1 1400252 136 80 1213.1 149.026 7.13 0.60 -1 185780 77 81 1219.2 333.136 1.97 0.65 119212 72428 3 82 1220.5 399.109 5.56 1.38 -1 143764 58 83 1221.0 139.038 7.52 0.73 -1 142492 36 84 1226.5 345.101 5.73 0.82 -1 178452 83 85 1235.3 399.111 3.37 1.11 -1 49040 112 86 1236.9 325.187 11.93 1.02 -1 447944 97 87 1237.0 361.134 7.04 0.58 684608 455788 7 88 1246.5 377.129 7.26 1.05 6084932 4085104 50 89 1253.0 375.113 2.51 0.66 294820 194348 34 90 1262.2 361.134 2.95 0.77 190560 87644 66 91 1271.5 253.219 7.93 0.89 273920 172384 17 92 1274.4 265.151 11.61 0.45 -1 2291212 18 93 1278.0 291.090 6.62 0.87 263656 143368 41 94 1278.8 325.187 11.65 0.91 927476 535988 35 95 1278.9 311.172 14.16 0.60 1160260 731940 12 96 1279.9 339.204 13.23 0.74 837044 558504 11 97 1282.2 311.172 15.81 0.60 1329312 900992 15 98 1294.4 377.129 2.59 0.38 766880 502812 64 99 1300.3 253.220 8.27 0.69 -1 300580 73 100 1314.0 377.129 1.79 0.75 264412 196344 35 101 1316.1 361.133 3.21 0.49 241392 118576 7 102 1319.3 266.153 9.73 0.64 -1 444572 31 103 1323.8 291.090 3.15 0.70 119252 89116 58 104 1325.1 297.156 9.73 1.02 -1 378028 74 105 1327.7 339.204 13.94 0.74 -1 770972 38 106 1334.2 343.263 2.01 0.29 120212 82628 7 107 1343.2 315.128 1.40 0.45 145336 97496 6

-------------- Fichero gg22.bin --------------- ..................................... Compuestos encontrados....................................... Nº RT(s) M/z(mDa) Desv.Est.T.(s) Desv.Est.M.(mDa) Área(50%) Área(80%) Nº sec - 1 387.3 153.058 2.12 0.25 896040 640440 29 2 490.4 137.061 1.82 0.57 307920 188444 18 3 757.1 139.007 2.81 0.51 100628 74592 108 4 769.6 139.007 3.29 0.43 236856 101428 116 5 792.0 187.100 2.98 0.49 127132 65548 9 6 807.0 139.007 6.93 0.39 683412 344860 68 7 812.6 319.122 9.05 0.77 269800 155968 12 8 815.2 393.124 1.60 0.92 70016 52644 17 9 819.3 183.069 9.51 0.73 282604 107472 69 10 833.5 335.118 1.86 0.40 148928 89156 9 11 847.5 377.128 1.91 0.59 135792 71056 29 12 853.0 307.085 4.80 0.95 80080 40908 35 13 862.7 377.128 5.19 0.98 112232 52932 79 14 862.8 393.124 2.33 1.44 72732 38484 16 15 880.3 319.122 21.19 0.67 -1 1376664 53 16 886.9 95.049 3.09 0.47 125652 71624 66 17 888.7 377.129 2.00 0.56 510640 379392 34 18 889.2 393.124 5.37 1.04 132952 64492 25 19 905.2 183.068 10.34 0.47 -1 504016 65 20 911.0 393.123 3.83 1.08 176620 91484 41 21 932.2 319.121 7.98 0.66 301588 188216 3 22 933.6 183.068 5.74 0.67 241848 151400 136 23 944.1 417.158 1.63 0.84 87568 52212 5 24 957.8 285.042 1.91 0.36 640912 379052 11 25 971.5 319.120 1.78 0.63 168728 100284 25

Page 212: Desarrollo de técnicas de clustering en datos de ...

196

26 976.3 377.127 2.65 0.64 279164 162296 25 27 980.0 241.073 1.55 0.48 87168 54116 3 28 988.4 361.131 2.47 0.96 211864 129668 46 29 1000.5 275.091 2.91 1.39 84500 50436 39 30 1002.0 361.132 3.55 0.93 140584 79996 85 31 1002.5 357.136 1.70 0.68 334356 196844 10 32 1004.4 183.068 8.24 0.65 273340 150808 116 33 1022.1 391.142 3.80 0.64 64936 39556 12 34 1041.1 393.122 1.87 0.57 370068 248612 26 35 1041.1 307.083 9.38 1.01 219592 79720 40 36 1045.5 181.052 4.40 0.72 206040 154200 3 37 1046.4 377.127 5.25 0.89 313828 140792 129 38 1048.6 213.078 2.73 0.34 761616 583308 52 39 1074.8 377.127 3.13 0.45 621464 403916 61 40 1122.4 269.046 2.27 0.34 276892 224628 1 41 1123.0 183.067 5.75 0.68 181244 114276 132 42 1137.5 377.127 4.62 0.36 1246168 747424 47 43 1147.1 361.132 3.08 0.96 148652 82624 40 44 1148.6 378.130 5.15 1.20 -1 101424 136 45 1149.4 242.177 2.88 0.53 110540 74924 3 46 1156.3 241.073 1.66 0.39 68628 59188 1 47 1159.4 299.057 1.78 0.84 76372 57128 7 48 1165.1 361.132 3.23 0.87 78328 26648 95 49 1181.8 275.092 9.77 0.81 -1 407300 111 50 1196.5 139.038 8.63 1.12 -1 192860 85 51 1207.5 149.026 9.29 0.69 408160 229372 59 52 1216.5 399.110 7.27 1.19 221408 153512 90 53 1216.7 378.131 3.65 0.63 -1 170732 123 54 1218.5 333.137 1.76 0.37 133652 97956 5 55 1240.0 361.133 4.73 0.73 394116 246204 19 56 1241.4 377.128 12.00 0.73 5641776 3360968 45 57 1253.0 375.112 2.61 1.35 346096 230740 25 58 1262.8 311.170 7.41 0.76 -1 292644 37 59 1263.3 361.132 3.30 0.62 142576 104000 52 60 1273.2 253.219 4.71 0.59 -1 124784 46 61 1275.9 339.203 11.23 0.82 -1 485248 35 62 1281.0 325.186 9.62 0.67 -1 584120 59 63 1294.4 377.128 2.16 0.48 458448 278264 48 64 1303.7 391.144 2.19 1.42 96068 56844 12 65 1315.5 361.133 2.66 0.49 242964 165548 17 66 1324.0 291.089 2.58 0.83 81256 41648 79 67 1329.0 339.203 11.82 0.63 -1 677688 115 68 1334.1 343.263 2.05 0.65 122704 59488 6 69 1343.2 315.126 1.38 0.44 73064 52140 6

Page 213: Desarrollo de técnicas de clustering en datos de ...

197

7.5. Apéndice 5. Resultados de la agrupación de compuestos de todas las muestras de la colección de matrices de estándares.

En primer lugar se obtienen los compuestos para cada muestra y luego se

agrupan para saber qué compuestos corresponden a qué muestras, obteniendo finalmente los siguientes compuestos que aparecen, al menos, en una muestra de la colección:

Compuesto Tiempo de

retención (s) Masa/carga

(Da) ( ) ( )

Área (50%)

Área (80%)

Nº agrupaciones secundarias

1 359,75 191,056 9,10 1,60 94108 58984 13

2 375,87 595,128 5,51 0,63 642432 431176 20

3 413,40 463,087 6,18 1,77 121740 61564 4

4 501,22 191,056 2,60 0,39 882612 615776 58

5 600,63 191,057 2,40 0,58 121124 64428 20

6 635,79 179,035 2,11 0,26 836616 585476 57

7 744,46 609,148 2,07 0,57 1059376 816620 33

8 800,28 463,090 2,43 1,61 3211992 2079824 58

A continuación se puede observar la tabla de presencia de cada compuesto en cada muestra, donde un 1 indica que se ha encontrado un compuesto en esa muestra y un 0 indica lo contrario. Los compuestos marcados en verde son los correspondientes a los estándares de polifenoles mezclados: c1(2), c2(4), c3(6), c4(7) y c5(8).

Compuesto

Muestra 1 2 (c1) 3 4 (c2) 5 6 (c3) 7 (c4) 8 (c5)

1 0 0 0 0 0 0 0 0

2 0 0 0 0 0 1 0 0

3 0 1 0 0 0 1 0 0

4 0 0 0 1 1 0 1 1

5 0 1 0 1 1 1 1 1

6 0 1 0 1 1 1 1 1

7 0 0 0 0 0 0 1 1

8 0 1 0 1 1 1 1 1

9 0 1 0 1 1 1 1 1

10 0 1 1 0 0 1 1 1

11 0 1 0 1 1 1 0 1

12 0 1 0 1 1 1 1 1

13 0 0 0 1 1 0 1 1

14 0 1 1 1 1 1 1 1

15 0 1 1 1 1 1 1 1

16 0 1 1 1 1 1 0 1

17 0 1 1 1 1 1 0 1

18 0 1 1 1 1 1 1 0

19 0 1 0 1 1 0 1 1

20 0 0 0 1 1 0 1 1

Page 214: Desarrollo de técnicas de clustering en datos de ...

198

21 0 0 0 0 0 0 1 1

22 1 0 0 1 1 0 1 1

23 0 1 1 1 1 1 1 1

24 0 1 1 0 0 1 0 0

25 0 1 1 1 1 1 1 1

26 1 1 1 1 1 1 1 1

27 0 1 1 0 0 1 1 1

28 0 1 1 1 1 1 0 0

29 0 1 1 1 1 1 1 1

30 0 1 1 1 1 1 1 1

A continuación se observa la concentración teórica en la que se han mezclado

los compuestos en el laboratorio y el área cromatográfica experimental. Se puede observar una gran correlación entre los valores, notándose que el aumento de concentración de un compuesto en la muestra, aumenta el área cromatográfica obtenida experimtalmente.

Concentración (µg/mL) Área cromatográfica experimental

Muestra c1 c2 c3 c4 c5 c1(2) c2(4) c3(6) c4(7) c5(8)

1 0 0 0 0 0 0 0 0 0 0

2 0 0 1.0 0 0 0 0 146872 0 0

3 2.0 0 1.0 0 0 171660 0 127576 0 0

4 0 2.0 0 2.0 2.0 0 364272 0 577552 1022272

5 2.4 1.6 0.4 2.0 0.8 202552 339680 42000 535972 452384

6 4.0 1.6 0.8 1.2 0.4 46060 334748 96416 360400 225736

7 0 0 0 1.0 1.0 0 0 0 308560 606388

8 1.6 1.0 0.6 1.2 1.4 131028 231468 71148 401512 721560

9 2.4 1.0 1.4 0.8 0.6 70200 231000 187452 236268 327652

10 4.0 0 2.0 1.0 1.0 99380 0 363544 347372 608044

11 2.0 2.0 1.0 0 2.0 163812 459484 135952 0 1072084

12 2.0 2.0 0.8 1.6 1.0 186468 440792 85936 507404 568400

13 0 2.0 0 2.0 2.0 0 348552 0 545480 1146784

14 4.0 2.0 2.0 2.0 0.4 105948 382420 383212 556820 26808

15 4.0 2.0 2.0 2.0 2.0 349856 441100 341868 533564 1035012

16 4.0 2.0 3.0 0 2.0 97992 432860 493868 0 1053828

17 6.0 2.8 2.0 0 3.2 598460 682828 365840 0 1626644

18 6.0 2.0 4.0 1.0 0 501648 425512 836616 294764 0

19 4.0 3.0 0 4.0 4.0 275168 539696 0 1031400 1641656

20 0 3.0 0 4.0 2.0 0 628308 0 1047188 985376

21 0 0 0 0.4 4.0 0 0 0 39160 3211992

22 0 4.0 0 4.0 0.4 0 805248 0 1050840 50224

23 6.0 3.0 3.0 3.0 3.0 499236 702496 517296 816828 1323544

24 6.0 0 3.0 0 0 501368 0 537044 0 0

25 4.8 2.0 3.6 3.0 3.0 47936 452324 565244 816312 1521964

26 4.8 2.8 2.0 3.2 3.6 414232 605768 305844 877252 1794444

Page 215: Desarrollo de técnicas de clustering en datos de ...

199

27 4.0 0 2.0 4.0 4.0 350260 0 308172 1059376 1885424

28 8.0 2.0 4.0 0 0 590192 421912 733940 0 0

29 8.0 3.0 4.0 3.0 2.0 642432 610824 760948 776460 1187944

30 8.0 4.0 4.0 2.0 2.0 614868 882612 742892 530108 1070624