Post on 17-Jul-2022
, Mes y Año
Departamento de Lic. Química
Título del trabajo: “Modelación de la capacidad de compuestos químicos de
atravesar la barrera hematoencefálica’’
Autor del trabajo: Luis Enrique Campos Delgado
Tutores del trabajo: Prof. Aux., Oscar Martínez Santiago, Dr. C.
Prof. T., Reinaldo Molina Ruiz, Dr. C.
Junio 2018
Este documento es Propiedad Patrimonial de la Universidad Central “Marta Abreu” de
Las Villas, y se encuentra depositado en los fondos de la Biblioteca Universitaria “Chiqui
Gómez Lubian” subordinada a la Dirección de Información Científico Técnica de la
mencionada casa de altos estudios.
Se autoriza su utilización bajo la licencia siguiente:
Atribución- No Comercial- Compartir Igual
Para cualquier información contacte con:
Dirección de Información Científico Técnica. Universidad Central “Marta Abreu” de Las
Villas. Carretera a Camajuaní. Km 5½. Santa Clara. Villa Clara. Cuba. CP. 54 830
Teléfonos.: +53 01 42281503-1419
Glosario
SCN
BHE
BBB
QSAR
DMs
CV
RLM
AG
AV
SE
VC
SVM
SMO
ACP
LDA
GDIs
Its
LOO
R
R2
Sistema Nervioso Central
Barrera Hematoencefálica
Blood-Brain Barrier
Quantitative Structure Activity Relationships
Descriptores Moleculares
Cribado Virtual
Regresión Lineal Múltiple
Algoritmo Genético
Análisis de Variabilidad
Shannon Entropy
Validación Cruzada
Support Vector Machine
Sequential Minimal Optimization
Análisis de Componentes Principales
Linear Discriminant Analysis
Índices de Derivada del Grafo inspirados en las entropías de información
Índices Topológicos
Leave One Out
Coeficiente de correlación
Coeficiente de determinación o coeficiente de correlación al cuadrado
Resumen:
En las primeras etapas del desarrollo de una nueva droga contra enfermedades del sistema
nervioso central SNC, es conocido que la habilidad de los compuestos de penetrar la BHE
juega un papel importante, sin embargo y aparentemente de forma paradójica, el medio
interno del SNC se encuentra aislado con respecto a la circulación sanguínea por esta
estructura. El objetivo fundamental de este trabajo consiste en desarrollar regresiones sobre
un conjunto químico estructuralmente diverso, para encontrar relaciones lineales y no
lineales que correlacionen las estructuras moleculares con sus actividades correspondientes,
después de codificar numéricamente las moléculas usando índices de derivada discreta de
grafos moleculares GDI. En este estudio se modeló la capacidad de atravesar le Barrera
Hematoencefálica (expresada como el log BBB) de 579 entidades químicas. Las estructuras
químicas fueron codificadas usando índices de derivada discreta de grafos moleculares. Estos
fueron calculados utilizando el módulo DIVATI del programa TOMOCOMD-CARDD.
Posteriormente, para seleccionar los descriptores con mayor variabilidad, fue utilizado el
software IMMAN, que permite desarrollar análisis de variabilidad basado en el cálculo de la
entropía de Shannon. Las ecuaciones de RLM fueron encontrados en el programa MobyDigs,
Los modelos de regresión no lineal fueron encontrados con el software KNIME que posee
implementado funciones del software WEKA, usando Máquinas de Vectores de Soporte. Se
encontraron modelos de RLM (N = 560; R2 = 86.58; s = 0.565) y modelos de regresión no lineal
(N= 560 R2= 80.7 s2 = 0.766). Los resultados encontrados en este estudio son superiores a
los reportados en la literatura para esta misma base de datos y también para otras
modelaciones que involucran la misma actividad biológica.
Abstract:
In early stages of the development of a new drug against diseases of the central nervous
system CNS, it is known that the ability of the compounds to penetrate the BBB plays an
important role, however and apparently paradoxically, the internal environment of the CNS
is found isolated with respect to blood circulation by this structure. The main objective of
this work is to develop regressions on a structurally diverse chemical set, to find linear and
non-linear relationships that correlate the molecular structures with their corresponding
activities, after coding the molecules numerically using indices of discrete derivative of
molecular graphs GDI. In this study, the ability to cross the blood-brain barrier (expressed as
the BBB log) of 579 chemical entities was modeled. The chemical structures were encoded
using discrete derivative indices of molecular graphs. These were calculated using the
DIVATI module of the TOMOCOMD-CARDD software. Subsequently, to select the
descriptors with greater variability, the IMMAN software was used, which allows the
development of variability analysis based on the Shannon entropy calculation. The MLR
equations were found in the MobyDigs program. The non-linear regression models were
found with the KNIME software that has implemented WEKA software functions, using
Support Vector Machines. MLR models were found (N = 560, R2 = 86.58, s = 0.565) and
non-linear regression models (N = 560 R2 = 80.7 s = 0.766). The results found in this study
are superior to those reported in the literature for the same database and also for other models
that involve the same biological activity.
Tabla de contenido INTRODUCCIÓN: ................................................................................................................. 8
1 MARCO TEÓRICO: ......................................................................................................... 15
1.1 La Barrera Hematoencefálica (BHE).......................................................................... 15
1.1.1- La BHE. Su importancia en el funcionamiento del SNC. .................................. 15
1.1.2- Determinación de los parámetros de la capacidad de los compuestos químicos de
penetrar la BHE. ........................................................................................................... 17
1.2 Estudios QSAR/QSPR y Descriptores Moleculares. .................................................. 19
1.2.1-Generalidades de los estudios QSAR. ................................................................. 19
1.2.2-Descriptores moleculares. ................................................................................... 20
1.3 Elementos de Quimiometría. ...................................................................................... 29
1.3.1- Aplicaciones de DMs y de Quimiometría. ......................................................... 29
1.3.2 Herramientas Estadísticas. ................................................................................... 30
2 MATERIALES Y MÉTODOS:......................................................................................... 40
2.1 Base de Datos. ............................................................................................................ 40
2.2 Métodos Computacionales de Cálculo. ...................................................................... 42
2.2.1-Cálculo de los nuevos Índices de Derivada del Grafo. Programa TOMOCOMD-
CARDD(DIVATI). ....................................................................................................... 42
2.2.2- Análisis de Variabilidad (AV). Programa IMMAN. .......................................... 43
2.2.3- Regresión Lineal Múltiple (RLM). Programa MobyDigs .................................. 45
2.2.4- Regresión no- lineal múltiple. Programa KNIME............................................... 48
3 RESULTADOS Y DISCUSIÓN: ...................................................................................... 51
3.1- Cálculo de los nuevos Índices de Derivada del Grafo. .............................................. 51
3.2- Modelos de RLM....................................................................................................... 52
3.2.1- Modelo inicial de RLM. ..................................................................................... 52
3.2.1.1- Interpretación del Modelo. .............................................................................. 54
3.2.2- Identificación y eliminación de las moléculas outliers. ..................................... 54
3.2.3 Modelo de RLM con data modificada. ................................................................ 57
3.2.4 Segunda selección de outliers y modelo de RLM modificado: ........................... 59
3.2.4.1- Interpretación del Modelo. .............................................................................. 61
3.3 Regresión no lineal. .................................................................................................... 62
3.3.1- Interpretación del modelo no lineales. ............................................................... 62
3.3.2- Discusión de los resultados de la regresión no lineal: ........................................ 64
3.4 Estudio comparativo sobre modelos reportados en la literatura con respecto a este
trabajo donde se utiliza la misma data. ............................................................................. 66
CONCLUSIONES: ............................................................................................................... 67
RECOMENDACIONES: ..................................................................................................... 68
REFERENCIAS BIBLIOGRÁFICAS: ................................................................................ 69
Anexos: ................................................................................................................................. 76
INTRODUCCIÓN:
El Sistema Nervioso Central (SNC) requiere para su funcionamiento de un aporte continuo
de sustratos energéticos fundamentalmente oxígeno y glucosa, suministrados a través de una
amplia red de capilares sanguíneos, probablemente la más compleja del organismo. Sin
embargo y aparentemente de forma paradójica, el medio interno del SNC se encuentra aislado
con respecto a la circulación sanguínea por una estructura también única en el organismo: la
denominada Barrera HematoEncefálica (BHE)(Pascual et al., 2004). Esta barrera se
manifiesta cuando los especialistas clínicos quieren tratar una patología que afecta al SNC y
tras administrar un tratamiento farmacológico por Vía Intravascular, se encuentran con una
ausencia de efecto terapéutico, ya que el fármaco no puede penetrar dicha barrera(Assef,
2000, Abbott et al., 2010a). Este es el caso de muchos antibióticos que, aunque sean los
idóneos en la lucha contra el germen causal de una meningitis, no pueden escogerse por su
imposibilidad de paso a través de la barrera; o el de la mayoría de los citostáticos, de nula
utilidad en la lucha contra los tumores primarios del SNC por la misma razón(Roda, 2004,
Abraham and Hersey, 2006). Por otro lado, también es conocido los efectos de una disfunción
de la BHE, tal y como se manifiestan en el edema cerebral asociado a la mayoría de los
tumores malignos del SNC, particularmente en las metástasis.
En las primeras etapas del desarrollo de una nueva droga, es conocido que la habilidad del
compuesto de penetrar la BHE juega un papel importante. La BHE es una compleja interfaz
bioquímica-física que consiste en células endoteliales de los capilares del cerebro(Arthur M.
Butt, 1990). Esta tiene el propósito de mantener la homeostasia en el SNC proporcionando
una separación entre el cerebro y la sangre y esto representa un desafío para la mayoría de
los tratamientos de desorden cerebral.
La capacidad de atravesar la BHE es usualmente medida por dos métodos experimentales
nombrados comúnmente como equilibrios de distribución cerebro-sangre; estos métodos
difieren en la medida con que son expresados sus parámetros, debido a la vía que se utilice
para determinarlos (log BBB o log PS), ambos se hacen extensos y complicados en los
procedimiento de laboratorio.
Por lo antes mencionado, la industria Farmacéutica ha reorientado las estrategias de búsqueda
hacia métodos que permitan la identificación y la optimización de nuevos compuestos líderes
de un modo efectivo (en el menor tiempo posible y a un costo razonable). En este sentido, el
enfoque de diseño/descubrimiento de fármacos asistido por computadoras ofrece una
alternativa al mundo real de síntesis y evaluación. Este procedimiento engloba todas las
técnicas asistidas por ordenadores usadas en el diseño, descubrimiento y optimización de
compuestos con propiedades deseadas y ha jugado un rol fundamental en el desarrollo de un
número de fármacos que están ahora en el mercado(Guha et al., 2004). Este tipo de estudio
se basa en el uso de un mundo “virtual” de hipótesis, generadas por computadoras y probadas
en la práctica. Este tipo de procedimiento ‘in sílico’ evita los procesos actuales de síntesis y
bioensayos, los cuales se hacen solamente después de la exploración de los conceptos
iniciales con modelos computacionales(Todeschini and Consonni, 2008). Por tanto, podemos
plantear que los estudios QSAR/QSPR/QSTR (siglas en inglés acrónimos de Quantitative
Structure Activity/Property/Toxicity Relationships) se han convertido en una importante área
de investigación en la química computacional y teórica(Viii, JURGEN MENSCH, 2009).
Este tipo de estudios se encuentra en los campos de intersección entre la biología, la química,
la matemática y la computación, tienen dos objetivos fundamentales. El primero: brindar una
vía para estimar, con un aceptable grado de precisión, la actividad/propiedad/toxicidad
estudiada a nuevos compuestos. El segundo: es obtener una interpretación en términos
estructurales de la actividad/propiedad/toxicidad estudiada(Santiago, 2015).
El paradigma enarbolado en los estudios QSAR/QSPR/QSTR está relacionado con el hecho
de que las propiedades físicas, físico-químicas, químicas, biológicas y toxicológicas de los
compuestos orgánicos dependen en último término de la estructura molecular. Existen
muchos parámetros químico-físicos de las moléculas que son una expresión cuantitativa de
la estructura molecular, también dicha estructura puede ser descrita usando diferentes
métodos y estrategias matemáticas.
Derivados de la aplicación de principios de diferentes teorías como química cuántica, teoría
de la información, química orgánica, teoría de grafos, han surgido los Descriptores
Moleculares (DMs), usados en la modelación de propiedades de compuestos químicos en
diversos campos científicos. Para obtener estimaciones confiables de propiedades
moleculares, identificar los rasgos estructurales responsables de la actividad biológica y
seleccionar las estructuras candidatas a medicamentos; los DMs son procesados por métodos
estadísticos, quimiométricos y quimioinformáticos(Abreu et al., 2015). La
quimioinformáticas abarca el diseño, creación, organización, dirección, recuperación,
análisis, diseminación, visualización y uso de la información química y los DMs desempeñan
un rol fundamental en este proceso; siendo la herramienta básica para transformar la
información química en un código numérico adecuado para la aplicación de procedimientos
informáticos(JURGEN MENSCH, 2009).
El descubrimiento de nuevos fármacos es un proceso complicado que puede ser optimizado,
en las primeras etapas, gracias a la utilización de métodos de cribado virtual (CV). El CV
tiene la ventaja de ser más económico y rápido, y permite tener en cuenta una cantidad de
compuestos del orden de billones, cifra impensable experimentalmente. Por otra parte los
estudios QSAR se han utilizado ampliamente en la modelación de disímiles propiedades
moleculares de naturaleza física, química y biológica, son actualmente, el enfoque más
utilizado en el diseño de nuevos fármacos. Este tipo de análisis es muy útil y generalmente
se utiliza como principal herramienta en la selección de compuestos durante el protocolo de
CV. Sin embargo, los estudios de RLM y de regresión no lineal basados en técnicas de
Máquinas de Soporte Vectorial (SVM por sus siglas en inglés Support Vector Machine)
reportados en la literatura, han aportado resultados limitados porque son pocos los métodos
teóricos que han intentado aproximarse a la modelación del efecto de moléculas de atravesar
la BHE; a pesar de que en la actualidad, el uso de técnicas in silico soportada por rigurosos
parámetros estadísticos, para hallar relaciones de la estructura de las moléculas con una
determinada actividad biológica, química o física; ha optimizado los procesos de selección
de compuestos con calidad para ser probados.
La actividad de moléculas orgánicas de atravesar la BHE ha sido modelada in silico en varias
ocasiones, y la mayoría de los estudios publicados exhiben datas congenéricas con un escaso
número de compuestos(Albrecht et al., 2008, Ritzén et al., 2009, Fu et al., 2008a, Feher et
al., 2000, Narayanan and Gunturi, 2005b, Kortagere et al., 2008). Los modelos existentes
para predecir la capacidad de atravesar la BHE poseen poca aplicabilidad global, al no
reportarse bases de datos amplias y diversas; lo cual limita el análisis a profundidad de la
relación de esta propiedad biológica con los rasgos estructurales y consecuentemente, la
estimación de dicha actividad.
Por todo lo anteriormente expuesto se evidencia que hasta este momento en la literatura
científica especializada no existen ni datas ni modelos eficientes que predigan
satisfactoriamente el comportamiento de las moléculas de atravesar la BHE; debido a esto se
nos plantea el siguiente problema científico:
Problema Científico:
¿Cómo desarrollar modelos capaces de predecir la capacidad de atravesar la BHE de
moléculas orgánicas estructuralmente diversas?
Hipótesis:
Es posible encontrar relaciones cuantitativas de Regresión entre descripciones matemáticas
de estructuras químicas diversas y sus respectivas capacidades de atravesar la BHE, usando
GDIs como descriptores estructurales.
Objetivo General:
Desarrollar modelos matemáticos que describan satisfactoriamente la capacidad de
moléculas orgánicas de atravesar la BHE y que puedan ser usados en posteriores estudios de
CV y desarrollo de nuevas entidades químicas como candidatos prometedores para combatir
las enfermedades del sistema nervioso central SNC.
Objetivos específicos:
- Codificar matemáticamente un conjunto químico de 579 moléculas, estructuralmente
diversas, usando índices de derivada discreta de grafos moleculares (GDI).
- Desarrollar modelos de RLM que relacionen las estructuras del conjunto químico con
sus respectivas capacidades de atravesar la BHE (actividades biológicas).
- Desarrollar modelos de regresión no lineales, que relacionen las estructuras del
conjunto químico con sus respectivas capacidades de atravesar la BHE.
La novedad científica de este trabajo se fundamenta en la obtención de nuevos modelos
matemáticos lineales y no lineales, para el descubrimiento de potenciales fármacos con la
capacidad de atravesar la BHE, usando GDIs como estrategia de codificación de las
estructuras químicas.
Antecedentes y Marco Teórico
ANTECEDENTES Y MARCO TEÓRICO
“La mente que se abre a una nueva idea jamás volverá a su tamaño original’’
Albert Einstein.
ANTECEDENTES Y MARCO TEÓRICO:
En este capítulo se abordan los resultados de una extensa y exhaustiva búsqueda
bibliográfica en la literatura internacional acerca de los aspectos teóricos que justifican y
sustentan la presente investigación. Se resumen además los estudios actuales que tienen
alguna similitud con el tema que aborda esta investigación.
1 MARCO TEÓRICO:
1.1 La Barrera Hematoencefálica (BHE).
1.1.1- La BHE. Su importancia en el funcionamiento del SNC.
La barrera hematoencefálica es una formación densa de células endoteliales y gliales entre
los vasos sanguíneos y el sistema nervioso central(Arthur M. Butt, 1990). La barrera impide
que muchas sustancias tóxicas la atraviesen, al tiempo que permite el pasaje de nutrientes y
oxígeno. De no existir esta barrera muchas sustancias nocivas llegarían al cerebro, afectarían
su funcionamiento y tornarían inviable el organismo. Las células de la barrera poseen
proteínas específicas que transportan de forma activa sustancias como la glucosa, agua, entre
otras, a través de la barrera.
Su existencia, que se suponía, fue probada en 1885 por Paul Ehrlich, quien inyectó anilina
en la sangre de una rata, la cual tiñó en azul todo el cuerpo, excepto el cerebro, que quedó
ANTECEDENTES Y MARCO TEÓRICO
sin tinción. Eso trajo la evidencia de que el cuerpo disponía de algún tipo de mecanismo de
protección del sistema nervioso central(Arthur M. Butt, 1990).
En 1967 se logró ver la barrera hematoencefálica a través del microscopio electrónico,
gracias a Thomas Reese y Morris Karnovsky, de la Universidad Harvard. Pudieron además
comprobar hasta qué punto las células endoteliales se hallaban unidas entre sí(Arthur M.
Butt, 1990). Así se pudo ver que los capilares sanguíneos llegan hasta estas células, que
forman una capa firme en esta zona, mientras que en el resto del cuerpo forman una barrera
más flexible. Fuera del cerebro las paredes de los capilares se componen de células
endoteliales que tienen pequeños huecos entre sí, pero dentro del cerebro esas células están
estrechamente entrecruzadas sin esos huecos entre ellas, haciendo que los componentes pasen
selectivamente a través de las células. Esta primera barrera bloquea el paso de moléculas con
excepción de aquellas que cruzan la membrana celular por ser liposolubles. Una segunda
capa de células con alto contenido en grasas, no permite el paso de sustancias hidrosolubles.
Así, solo las moléculas más pequeñas (oxígeno, dióxido de carbono, el etanol y azúcares)
pueden pasar por la barrera. Las drogas y otros tóxicos son por lo general demasiado grandes
para pasar; y la barrera también protege al cerebro de infecciones, y por ello la infección del
cerebro es muy rara.
Por ejemplo: La enfermedad de Parkinson es una patología que se debe al déficit del
neurotransmisor dopamina en una determinada región cerebral. El sentido común parece
indicar que si falta esta sustancia bastará administrarla para que los parkinsonianos se curen.
Sin embargo, y desgraciadamente, nada más lejos de la realidad: la dopamina no es capaz de
atravesar la barrera hematoencefálica(Francisco, 2009).
ANTECEDENTES Y MARCO TEÓRICO
Finalmente, hay que indicar que no todas las partes del encéfalo tienen una barrera
hematoencefálica que actúa con igual intensidad, es decir, hay zonas en las que las sustancias
atraviesan las paredes de los capilares sanguíneos más fácilmente que otras.
1.1.2- Determinación de los parámetros de la capacidad de los compuestos químicos de
penetrar la BHE.
Varias moléculas como los nutrientes son transferidas a través de la BHE por “difusión
facilitada”. Las moléculas cruzan la membrana plasmática al interactuar
con proteínas transportadoras intramembranar relacionadas con canales de agua(Begley,
2000). Los dos sistemas con mayor capacidad son los de d-glucosa y
ciertos otros azúcares (como el Glut-L) y que para aminoácidos neutros y grandes, es llamado
el sistema-L. La capacidad de transporte máxima en la barrera hematoencefálica, es de un
valor de 4 µmol*min-1*g-1 en ratas y 1 µmol*min-1*g-1 en hombres.
El equilibrio de distribución de los compuestos entre la sangre y el cerebro es medido a largo
plazo por la capacidad cerebral de la perfusión cerebral, de forma experimental estos
equilibrios de distribución pueden durar hasta varios días en completarse. El trabajo de
Young y Mitchell y sus colegas marcó un decisivo paso adelante, y casi todos los
fisicoanálisis de la distribución sangre-cerebro han utilizado los datos de Young-Mitchell
(YM) para establecer la relaciones de distribución in vivo en ratas, definidas de la siguiente
manera(Begley, 2000):
𝐵𝐵 =conc. en el cerebro
conc. en la sangre (1)
La capacidad de atravesar la barrera hematoencefálica es usualmente medida por dos
métodos experimentales el primero nombrado equilibrio de distribución sangre/cerebro y el
ANTECEDENTES Y MARCO TEÓRICO
segundo mide la permeabilidad de la BHE(Liu et al., 2004). La forma de determinar la total
extensión de la distribución de una droga en el cerebro es cuantificado como log BB(Mensch
et al., 2009, Goodwin and Clark, 2005) y a pesar de las limitaciones que presenta estas
mediciones es la más comúnmente utilizada(Garg and Verma, 2006, Zhao et al., 2007,
Muehlbacher et al., 2011). El segundo es expresado como la relación entre el producto del
área superficial de la BHE y su permeabilidad (como log PS)(Pardridge, 2004).
Este último se expresa a menudo como producto de área superficial de permeabilidad de la
BHE (Pardridge, 2004). Últimamente, se ha propuesto otra medición cuantitativamente
significativa de la exposición cerebral, expresada como la relación de concentración de
cerebro a plasma sin consolidar un estado estacionario (Kp, uu, brain)(Fridén et al., 2009).
Es más probable que este parámetro esté relacionado con la actividad del SNC de los
compuestos porque da indicaciones de la distribución de un fármaco libre y no unido, que es
responsable del efecto farmacológico. Alternativamente, el log BBB representa
esencialmente la partición inerte en la materia lipídica cerebral(Mensch et al., 2009,
Lanevskij et al., 2009, Shen et al., 2008a).
Estos parámetros pueden ser fácilmente relacionados con los compuestos que tienen
actividad sobre el SNC debido a que estos dan un indicador de libre circulación, en relación
a como la droga se distribuye sobre el cerebro. Alternativamente el parámetro de log BBB
esencialmente reporta la distribución dentro de la materia del cerebro(Guha et al., 2004). Sin
embargo el parámetro de log PS ha sido aceptado como un importante valor en el
descubrimiento de nuevas drogas (Pardridge, 2004), el pequeño número de publicaciones que
se pueden encontrar, están conformados por datas de moléculas limitadas y los modelos
ANTECEDENTES Y MARCO TEÓRICO
obtenidos no son los mejores para realizar un correcto estudio de la capacidad de penetración
de la BHE(Santiago Vilar, 2010, Zhang et al., 2010b).
1.2 Estudios QSAR/QSPR y Descriptores Moleculares.
1.2.1-Generalidades de los estudios QSAR.
Los estudios de relaciones cuantitativas estructura actividad/propiedad conocidos como
QSAR/QSPR (de sus siglas en inglés: Quantitative Structure-Activity
Relationships/Quantitative Structure-Property Relationships) tienen, como su nombre lo
indica; la finalidad de encontrar, desde un enfoque cuantitativo, la relación existente entre la
estructura de las moléculas objeto de análisis y la actividad o propiedad medida o
calculada(Todeschini and Consonni, 2008). Las relaciones cuantitativas estructura-actividad
son el resultado final de un proceso que se inicia con la descripción de la estructura molecular
y termina, con algunas interferencias, hipótesis y predicciones, en el conocimiento del
ambiente biológico y/o fisicoquímico de las moléculas del sistema en análisis. Las
modelaciones QSAR están basadas en la asunción de que las características geométricas,
estéricas y electrónicas de las moléculas, deben contener la información responsable de sus
propiedades físicas, químicas y biológicas(Todeschini). Hace cerca de 50 años desde que la
modelación de QSAR fue introducida por primera vez en la práctica de la agroquímica, el
diseño de fármacos, la toxicología, la industria y la química medioambiental. Su utilidad se
encuentra en crecimiento continuo, lo cual es atribuible al rápido y extensivo desarrollo de
metodologías y técnicas computacionales que han sido creadas para delimitar y refinar
muchas variables y aproximaciones con el uso de modelos de propiedades moleculares.
Existen tres elementos fundamentales para la investigación científica de QSAR/QSPR: el
concepto de estructura molecular, la definición de descriptores moleculares (DMs) y la
ANTECEDENTES Y MARCO TEÓRICO
relación con propiedades experimentales de las moléculas que se logra con herramientas
quimioinformáticas. Todo lo anterior constituye una red interdisciplinaria, de ahí la
necesidad de relacionar un gran número de teorías, conocimientos y metodologías. Aunque
el desarrollo de cualquier estudio QSAR es un ciclo interactivo, existen siete pasos o
principios comunes generales que rigen su metodología: 1) Formulación del problema:
determinar el objeto de análisis y el nivel de información requerido para el estudio. 2)
Parametrización cuantitativa de la estructura molecular de los compuestos químicos
empleando los DMs. 3) Medición de la propiedad de interés. 4) Selección del tipo de modelo
QSAR. 5) Selección de los compuestos (diseño estadístico de la serie). 6) Análisis
matemático de los datos y Validación interna y externa de los modelos obtenidos. 7)
Interpretación teórica y/o mecanicista de los modelos desarrollados y su aplicación al
diseño/descubrimiento de nuevos compuestos líderes(Todeschini and Consonni, 2008).
1.2.2-Descriptores moleculares.
La historia de los DMs está estrechamente relacionada con uno de los conceptos científicos
más importantes de finales del siglo XIX, que es el concepto de estructura
molecular(Alexander, 2006). Los DMs son el mayor aporte de una de las primeras que
postuló la relación de las ciencias químicas y matemáticas, la Teoría de Crum-Brown; y en
la cual se desarrolló un sistema de representación gráfica de compuestos que es prácticamente
idéntico al que se utiliza hoy en día. Posteriormente, Crum-Brown and Fraser propusieron
la existencia de una correlación entre la actividad biológica de diferentes alcaloides y su
constitución molecular; más específicamente, la acción fisiológica de sustancias en ciertos
sistemas biológicos (Φ) fue definida como una función de su constitución química (C), es
decir, Φ=f(C). Así, una alteración en la constitución química (ΔC) puede ser reflejada por un
ANTECEDENTES Y MARCO TEÓRICO
efecto en su actividad biológica (ΔΦ). Esta ecuación se considera la primera formulación
general de las relaciones cuantitativas estructura-actividad(Brown, 1869, Crum-Brown and
Fraser, 1868).
1.2.2.1- Definición y clasificación.
Los DMs juegan un rol fundamental actualmente en el desarrollo de las Ciencias Químicas,
las Ciencias Farmacéuticas, las políticas de protección ambiental e investigaciones de la
salud. Los DMs son representaciones matemáticamente formales de las moléculas (u otras
entidades químicas) y son obtenidos de aplicar un algoritmo definido sobre una determinada
representación molecular. Un DM es: el resultado final de un procedimiento lógico y
matemático en el cual se transforma la información química codificada en una
representación simbólica de la molécula en un número de utilidad.(Todeschini and
Consonni, 2008)
El término utilidad, posee aquí un doble sentido, dado que los resultados numéricos finales
pueden brindar información sobre la naturaleza físico-química y estructural de las moléculas
así como ser relacionados con sus propiedades. Aun, si la interpretación en términos
estructurales y químico-físicos del descriptor es débil, temporal o completamente ausente, el
mismo puede estar altamente correlacionado con al menos una propiedad. Los descriptores
pueden ser agrupados inicialmente en dos clases generales(Todeschini and Consonni, 2008):
1) Los derivados de medidas experimentales como: logP, refractividad molar, momento
dipolo, polarizabilidad y otras propiedades químico-físicas en general.
ANTECEDENTES Y MARCO TEÓRICO
2) Descriptores Moleculares Teóricos, los cuales son derivados de representaciones
simbólicas de las moléculas y estos a su vez pueden ser clasificados acorde con diferentes
formas de representación molecular.
La representación molecular es una figura, imagen, símbolo, mapa, idea, etc., a partir de la
cual, la molécula como un ente fenomenológicamente real es sustituida o presentada,
siguiendo determinados procedimientos y reglas convencionales. La cantidad de información
química derivada de dicha representación simbólica depende del tipo de representación
utilizada(Testa and Kier, 1991a, Jurs et al., 1995).
Los Descriptores Teóricos pueden ser clasificados dependiendo de la representación de las
moléculas. La representación molecular es la manera en la que cada molécula es
simbólicamente representada por un procedimiento formal específico y siguiendo reglas
convencionales. La cantidad de información química que es transferida a la representación
simbólica depende del tipo de representación(Testa and Kier, 1991b). Es así que se han
definido:
Descriptores 0D: Son aquellos que se obtiene de la fórmula química (o fórmula
molecular), que no es más que la lista de los diferentes tipos de átomos, cada uno
acompañado por una representación como subíndice del número de ocasiones en que
aparece en la molécula. Esta representación es independiente de cualquier
conocimiento que involucre a la estructura molecular. Algunos ejemplos son: el
número de átomos y el peso atómico(Todeschini and Consonni, 2008).
Descriptores 1D: Están basados en la representación del tipo lista sub-estructural.
Pueden ser considerados como representaciones unidimensionales de la molécula y
ANTECEDENTES Y MARCO TEÓRICO
consisten en una lista de fragmentos estructurales de la misma. La lista de fragmentos,
grupos funcionales o sustituyentes de interés presentes en la molécula puede ser
simple o parcial; pero no se requiere de un completo conocimiento de la estructura
molecular. Este tipo de descriptores son usualmente utilizados en el análisis
subestructural, en el análisis de diversidad/similitud en el cribado virtual y en el
diseño de librerías moleculares(Todeschini and Consonni, 2008).
Los Descriptores 0D y 1D son calculados fácilmente, no requieren la optimización de la
estructura molecular y son independientes de cualquier problema conformacional.
Usualmente presentan una alta degeneración, es decir, que muchas moléculas presentan los
mismos valores, por ejemplo, los isómeros. La información que contiene es baja, pero no
obstante pueden jugar un rol importante en la modelación de varias propiedades físico-
químicas o pueden ser incluidos en modelos más complejos.
Descriptores 2D: Están basados en la representación en dos dimensiones de la
molécula considerando la conectividad entre los átomos. La representación de las
moléculas en términos de grafos moleculares es comúnmente conocida como
representación topológica, es por esto que este tipo de descriptores se conocen como
aquellos que resultan de la aplicación de algoritmos a la representación topológica.
La propiedad atómica con la que se pesa/pondera al descriptor considera los átomos
presentes en la molécula a través de la electronegatividad, masa atómica,
polarizabilidad atómica, estado electrotopológico, volumen de Van der Waals, etc.;
con lo cual se pueden seleccionar aquellos átomos que dan mayor peso a la variable.
Estos descriptores tienen en cuenta las interacciones inter/intra-
ANTECEDENTES Y MARCO TEÓRICO
moleculares(Todeschini and Consonni, 2008, Testa and Kier, 1991b, Kier and Hall,
1997).
Descriptores 3D: Basados en la representación tridimensional de la molécula, que
considera a ésta como un objeto geométrico rígido en el espacio, y permitiendo así
una visión adicional de la configuración espacial (estereoquímica) de los átomos. Este
tipo de descriptores también son conocidos como Descriptores geométricos. Ejemplo
de estos descriptores son los estéricos y de talla. Para su cálculo se utilizan estructuras
moleculares previamente optimizadas con métodos convenientes(Todeschini and
Consonni, 2008).
Descriptores 4D: Derivados de la representación tridimensional de la molécula y su
interacción con una sonda que caracteriza el ambiente (campos de interacción
molecular). GRID(Todeschini and Consonni, 2008) y CoMFA(Todeschini and
Consonni, 2008) fueron los primeros métodos basados en el cálculo de la energía de
interacción entre una molécula y su sonda. El enfoque de estas aproximaciones fue
identificar y caracterizar cuantitativamente la interacción entre la molécula y su sitio
activo receptor. Estos descriptores han sido por tanto de gran utilidad como
herramienta en el descubrimiento de nuevos candidatos a medicamentos.
Se han definido miles de DMs, derivados del análisis y la aplicación de principios de muchas
teorías diferentes; lo cual ha diversificado su espectro de utilidad. Claro está, la información
científica a procesar también se ha vuelto cada vez más amplia y compleja, por lo que,
simultáneamente, las herramientas de gestión y evaluación de los datos, han sufrido mejoras
y actualizaciones y se han creado otras nuevas y más específicas.
ANTECEDENTES Y MARCO TEÓRICO
1.2.2.2- - Diferenciación de grafos e Índices de derivada discreta:
En el Análisis Matemático el concepto de derivada caracteriza el grado de variación en una
función al realizarse una pequeña variación en su argumento, dicho concepto de derivada se
basa en el del límite(Cockett and Doggett, 2003). En la Matemática Discreta no existe el
concepto de límite y por tanto, es imposible trasladar el concepto de derivada tal como se
conoce, desde la matemática continua a la discreta(Gorbátov, 1988).
Antes de introducir una definición formal de la derivada de un grafo, primeramente se dejarán
claros determinados conceptos importantes para poder entender el significado de la misma y
sus grandes posibilidades de aplicación en la química grafo-teórica.
Primeramente defínase un suceso (S), el cual es verdadero cuando se cumplen determinadas
condiciones al proceso examinado. Cada suceso S determina una matriz binaria
bidimensional nxmijqQ ][ , a cada columna de la cual le corresponde biunívocamente una
condición, comprendida en al menos un suceso verdadero, y a cada fila, una colección de
condiciones, con las cuales el suceso tiene lugar y qij es:
𝑞𝑖𝑗
= { 1,si 𝑙𝑎 𝑗 − é𝑠𝑖𝑚𝑎 𝑐𝑜𝑛𝑑𝑖𝑐𝑖ó𝑛 𝑠𝑒 𝑖𝑛𝑐𝑙𝑢𝑦𝑒 𝑒𝑛 𝑙𝑎 𝑖 − é𝑠𝑖𝑚𝑎 𝑐𝑜𝑙𝑒𝑐𝑐𝑖ó𝑛 𝑑𝑒 𝑐𝑜𝑛𝑑𝑖𝑐𝑖𝑜𝑛𝑒𝑠𝑎,
𝑒𝑛 𝑙𝑎𝑠 𝑐𝑢𝑎𝑙𝑒𝑠 𝑒𝑙 𝑠𝑢𝑐𝑒𝑠𝑜 𝑒𝑠 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑟𝑜. 0, 𝑒𝑛 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟𝑎𝑟𝑖𝑜
En otras palabras, cada suceso determina un modelo () con matriz de incidencia Q . Las
condiciones que se comprenden en el suceso son letras del modelo y las colecciones de
condiciones para las cuales el suceso es verdadero serían palabras del modelo.(Gorbátov,
1988)
ANTECEDENTES Y MARCO TEÓRICO
Las intensidades de participación de las distintas condiciones (letras) en las colecciones de
condiciones (palabras) para las cuales el suceso es verdadero son caracterizadas utilizando
las frecuencias de su inclusión. Para ello es necesario introducir la matriz de frecuencia de
relaciones nxnijfF ][ que caracteriza un modelo, con matriz de incidencia
nxmijqQ ][)( .
Se denomina matriz de frecuencia de relaciones nxnijfF ][ una matriz, a cada fila y columna
de la cual le corresponde biunívocamente una condición, y un elemento fij es igual al número
de palabras que comprenden las letras i y j, respectivamente, si i ≠ j; si i = j entonces fi
corresponde al número de palabras que incluyen la letra i. Siendo fi la frecuencia propia de
la letra i y fij es la frecuencia recíproca de las letras i y j, correspondientemente.
De la definición de la matriz de frecuencia de relaciones, se desprende que la misma es
simétrica respecto a la diagonal principal, o sea fij = fji, y la frecuencia propia de cada letra es
mayor que la frecuencia recíproca de esta letra con cualquier otra, fi ≥ fij.
También se puede demostrar que:
xQQF T (2)
Siendo TQ la matriz transpuesta de la matriz de incidencia [Q (Ψ)] del modelo Ψ.
Es posible entonces, determinar el grado de heterogeneidad de los componentes del grafo
respecto a un suceso “S” dado y caracterizar esta heterogeneidad por la derivada SG de
un grafo G respecto al suceso S.
Llámese derivada SG de un grafo (G) respecto a un suceso (S), un grafo ponderado no
orientado <V, (U, P)>, cuyo portador coincide con el portador de un modelo determinado por
ANTECEDENTES Y MARCO TEÓRICO
este suceso y un par de vértices (vi, vj) está ponderado por la razón de la frecuencia
(𝑓𝑖 − 𝑓𝑖𝑗) + (𝑓𝑗 − 𝑓𝑖𝑗).
),( ji vvS
G
=
fij
fjfijfi )2( (3)
Con la particularidad de que:
(v i , vj) U, si S
G
(vi , vj) = ∞
(v i , vj) U, si S
G
(vi , vj) = una magnitud finita diferente de cero
(v i = v j) si S
G
(vi , vj) = 0
1.2.2.3 Índice de derivadas discreta para la codificación de estructuras químicas.
Dentro de las diferentes formas modernas de representar las posibles estructuras de las
moléculas, los más comunes esquemas desarrollados y semidesarrollados
(fundamentalmente moléculas orgánicas) no son más que grafos químicos(Santiago, 2015).
Los GDI codifican información topológica de la molécula (conectividad entre los átomos en
la molécula expresada a través de su intensidad de participación en la formación de la
estructura molecular). Sin embargo, es necesario enriquecer esta información con el
propósito de codificar también la presencia de heteroátomos e instauraciones.
Para lograr una descripción más cercana a la realidad química de las estructuras moleculares,
asígnese a cada vértice vi ∈ V (V = [v i / i =1, 2,…,n]) del grafo molecular G = ⟨V;E ⟩ un peso
𝜗i del conjunto de pesos W = [𝜗i / i =1, 2, …]. Es posible organizar estos pesos como un
vector que es denominado como vector de ponderación Vp = [𝜗i]1xn en cuyos elementos están
ANTECEDENTES Y MARCO TEÓRICO
representados cada uno de los átomos de la molécula por un peso o coordenada, determinados
por la fórmula:
𝜗i = 𝑃𝑖
𝛿𝑖𝑏 (4)
donde 𝑃𝑖 y 𝛿𝑖𝑏 son una propiedad característica de cada átomo (aislado o considerando el
ambiente específico que le rodea en la estructura, por ejemplo: Electronegatividad, Volumen,
E-Estado, etc.) y el grado del vértice de enlace del átomo, respectivamente. Así mismo, la
matriz de ponderación P = [Pij]nxn, es una matriz diagonal, donde filas y columnas no son
más que las distintas condiciones (átomos) del suceso y cada elemento pi de la diagonal le
corresponde biunívocamente un peso 𝜗i para la condición correspondiente y cada pij= pji= 0.
Todas estas posibilidades de caracterización de la estructura molecular de forma individual
permiten la obtención de índices locales atómicos que presentan valores acordes con cada
átomo y su entorno molecular. Estas son propiedades deseables para un nuevo DMs.
No obstante, es necesario la obtención de índices totales (involucra a todos los átomos de la
estructura) y locales sobre agrupaciones atómicas (involucra a determinados átomos de
interés particular, no necesariamente conectados) lo que aumenta las posibilidades de una
codificación más completa y adecuada descripción de las propiedades/actividades de las
moléculas.
Si la aplicación involucra a todos los elementos del vector de ponderación (todos los átomos
de la molécula) estaríamos en presencia de un cálculo de tipo global o total, mientras que si
solo se toman en consideración en la expresión del operador determinados valores
correspondientes a tipos de átomos de marcado interés se tendrá un cálculo de tipo local sobre
un grupo o agrupación atómica. Los principales tipos de átomos considerados para desarrollar
las descripciones locales sobre grupos fueron: heteroátomos (HT), halógenos (HL), aceptores
ANTECEDENTES Y MARCO TEÓRICO
de protones (AH), donantes de protones (DH), carbonos metilos (MC), insaturaciones (IS),
grupos a una longitud k (GL). Las ponderaciones se pueden desarrollar en tres momentos
fundamentales del cálculo de los índices: en la matris de incidencia (In), en la matriz de
ponderación (Pd) y en el vector de LOVIs (VL).
1.3 Elementos de Quimiometría.
1.3.1- Aplicaciones de DMs y de Quimiometría.
Recientes aplicaciones de índices basados en teoría de grafos, han demostrado un gran
potencial de estos DMs en el diseño de nuevas entidades químicas, en búsquedas virtuales en
bibliotecas químicas combinatorias y en evaluaciones a gran escala de similitud/diversidad
química en extensas bases de datos de compuestos químicos. Los Índices Topológicos (ITs)
son ampliamente usados además en estudios de relación estructura-
actividad/propiedad(Barysz et al., 1983, Ivanciuc, 2000).
Encontrar relaciones cuantitativas estructura-actividad es el paso final de un complejo
proceso que comienza con una determinada descripción de la estructura molecular y finaliza
con algunas inferencias, hipótesis y predicciones del comportamiento (biológico, químico-
físico, medioambiental, etc.) de las moléculas en un sistema analizado. Un estudio QSAR se
basa en el supuesto de que en la estructura molecular (su conectividad, sus características
geométricas, estéricas y sus propiedades electrónicas) están contenidas las características
responsables de las propiedades físicas, químicas y biológicas que muestran las sustancias y
que esta información puede ser capturada en uno o más DMs. La mayoría de las estrategias
QSAR son enfocadas hacia la construcción de modelos basados fundamentalmente en
métodos de clasificación o regresión, aunque de manera general muchos métodos
quimiométricos son usados, dependiendo del problema bajo estudio.
ANTECEDENTES Y MARCO TEÓRICO
El término quimiometría surgió en la década del 70 y se define como la disciplina química
que combina herramientas estadísticas como procedimientos para el análisis e interpretación
de los datos químicos(Van de Waterbeemd, 1995, Brereton, 1990, Devillers, 1991, Frank,
1994). Las técnicas utilizadas para la recopilación, la elaboración, el análisis y la
caracterización de conjuntos de datos, hoy en día, se interceptan no solo con varios campos
de la Matemática y la Estadística clásica sino también de la Inteligencia Artificial (IA) y otras
ramas de la ciencia de la computación(Rumelhart et al., 1986, Vapnik, 1995)
1.3.2 Herramientas Estadísticas.
1.3.2.1- Regresión Lineal Múltiple (RLM).
El análisis de regresión múltiple es una técnica que se utiliza para encontrar relaciones entre
una única variable dependiente (criterio) y varias variables independientes (explicativas,
predictores)(Hair et al., 1999). Así mismo, la regresión múltiple remite a la correlación
múltiple, que se representa por R. Sus fundamentos se hallan en la correlación de
Pearson(Alzina, 1989). La ecuación (modelo) de regresión múltiple tiene la siguiente forma:
𝑌 = 𝑎 + 𝑏1𝑋1 + 𝑏2𝑋2 + ⋯ + 𝑏𝑛𝑋𝑛 (5)
Siendo ‘a’ un valor constante, Y la variable dependiente, X1, X2,…Xn variables predictoras
y 𝑏1, 𝑏2, … , 𝑏𝑛 coeficientes estimados para cada variable independiente del modelo. Como
puede observarse, la RLM puede utilizarse en la predicción de los valores de la variable
dependiente, en base a una combinación de variables independientes y los coeficientes que
ponderan las variables independientes en la ecuación (4) son mayormente determinados por
el método de mínimos cuadrados(Frank, 1993, Draper and Smith, 1998).
ANTECEDENTES Y MARCO TEÓRICO
1.3.2.2- Principio de la parsimonia y la selección del número óptimo de variables.
Un buen modelo no debe presentar ni demasiadas variables, ni debe olvidar las que sean
verdaderamente relevantes. Es decir, debe cumplir el principio de parsimonia, según el cual
un fenómeno debe ser descrito con el número mínimo de elementos posibles(Deconinck et
al., 2007a). El principio de parsimonia tiene aplicaciones de importancia en el análisis
exploratorio de modelos de RLM, pues de un conjunto de variables explicativas que forman
parte del modelo a estudiar, debe seleccionarse la combinación más reducida y simple
posible, teniendo en cuenta la varianza residual, la capacidad de predicción y la
multicolinealidad.
Diversos procedimientos se han propuesto para seleccionar el número óptimo de variables a
incluir en la ecuación. Los métodos más comunes de regresión se basan en la adición o
eliminación de una variable a la vez, siguiendo un determinado criterio(Draper and Smith,
1998), y se conocen como: selección hacia adelante, eliminación hacia atrás; y selección paso
a paso(Norusis, 1985). Este último método es uno de los más utilizados (es una combinación
de los dos anteriores) y sigue un proceso de selección de variables paso a paso.
Existen también otros métodos modernos que pueden ser aplicados con éxito a la búsqueda
de combinaciones óptimas de las variables.
1.3.2.3- Algoritmo Genético (AG) como método de selección de parámetros.
Según D. Goldberg los AGs son:
Algoritmos de búsqueda basados en los mecanismos de selección natural y genética natural.
Combinan la supervivencia de los más compatibles entre las estructuras de cadenas, con una
estructura de información ya aleatorizada, intercambiada para construir un algoritmo de
ANTECEDENTES Y MARCO TEÓRICO
búsqueda con algunas de las capacidades de innovación de la búsqueda humana(Goldberg,
1989).
Un AG no es más que un método de búsqueda que imita la teoría de la evolución biológica
de Darwin (1859) para la resolución de problemas. Para ello, se parte de una población inicial
de la cual se seleccionan los individuos más capacitados para luego reproducirlos y mutarlos,
y de esa forma obtener finalmente la siguiente generación de individuos que estarán más
adaptados que la anterior generación(Leardi et al., 1992).
En la naturaleza todo el proceso de evolución biológica se hace de forma natural pero para
aplicar el AG al campo de la resolución de problemas habrá que seguir una serie de pasos.
Como premisa se debe conseguir que el tamaño de la población sea lo suficientemente grande
para garantizar la diversidad de soluciones. Se aconseja que la población sea generada de
forma aleatoria para obtener dicha diversidad.
Los pasos básicos de un algoritmo genético según (Goldberg, 1989, Leardi, 1994, Leardi,
2001) son:
Evaluar la puntuación de cada uno de los cromosomas generados.
Permitir la reproducción de los cromosomas siendo los más aptos los que tengan más
probabilidad de reproducirse.
Con cierta probabilidad de mutación, mutar un gen del nuevo individuo generado.
Organizar la nueva población.
Estos pasos se repetirán hasta que se dé una condición de terminación. Se puede fijar un
número máximo de iteraciones antes de finalizar el algoritmo genético o detenerlo cuando
no se produzcan más cambios en la población (convergencia del algoritmo). Esta última
ANTECEDENTES Y MARCO TEÓRICO
opción suele ser la más habitual. Observar la Anexo 1 de los anexos donde aparece reflejada
un esquema general de un AG.
1.3.2.4.- Clasificador, Máquinas de Soporte Vectorial. (SMO acrónico de Sequential Minimal
Optimization).
Las Máquinas de Soporte Vectorial (SVM por su nombre en inglés Support Vector Machine)
son una moderna y efectiva técnica de inteligencia artificial, que ha tenido un formidable
desarrollo en los últimos años. Estas son sistemas de aprendizaje que usan un espacio de
hipótesis de funciones lineales en un espacio de rasgos de mayor dimensión, entrenadas por
un algoritmo proveniente de la teoría de optimización. De forma general el algoritmo se
enfoca en el problema de aprender a discriminar entre miembros positivos y negativos de
vectores n-dimensionales. Mediante una función matemática denominada kernel, los datos
originales se redimensionan para buscar una separabilidad lineal de los mismos. De manera
general, las SVM permiten encontrar un híper plano óptimo que separe las clases.(Liu et al.,
2006, Hearst MA, 1998)
1.3.2.4.1- Funciones Kernel.
Las funciones kernel son funciones matemáticas que se emplean en las Máquinas de Soporte
Vectorial.(Cortes C, 1995) Estas funciones son las que le permiten convertir lo que sería un
problema de clasificación no-lineal en el espacio dimensional original, a un problema más
sencillo de clasificación lineal en un espacio dimensional mayor. El tipo de kernel determina
la transformación o mapeo que se le realizará a los datos.
Entre los kernels más empleados por su implementación en diversos programas de
modelación como Weka(Hall et al., 2009), se encuentran:
El kernel Polinómico:
ANTECEDENTES Y MARCO TEÓRICO
𝐾(𝑥; 𝑧) = [(𝑥 ∗ 𝑧) + 1]𝑝 (6)
El kernel Gaussiano:
𝐾(𝑥; 𝑦) = 𝑒(−‖𝑥−𝑧‖)
2𝜎2 (7)
Y el kernel Universal de Pearson
𝐾(𝑥𝑖; 𝑥𝑗) = 1 [1 + (2 ∗ √‖𝑥𝑖 − 𝑥𝑗‖2
∗ √2(1 𝜔⁄ ) − 1 𝜎⁄ )2]𝜔⁄ (8)
Donde ω y σ controlan la altura y amplitud del pico de la función.
1.3.2.6- Validación interna.
La validación cruzada (VC) opera haciendo un número de reducidas modificaciones al
conjunto de compuestos de la data original y entonces calcula la precisión de las predicciones
de cada uno de los resultados de los modelos(Wold, 1978, Stone, 1974). Es decir, se ajusta
el modelo a los nuevos datos, dejando la parte omitida fuera, y estos se evalúan en el modelo
para computar las predicciones de los casos que fueron excluidos. Este procedimiento se
repite para cada conjunto de datos modificados. El poder predictivo del modelo puede
expresarse como q2, denominado como la ‘varianza predictiva’ o la ‘varianza de la validación
cruzada’, la cual es igual a (1-PRESS/SSY), o sea que puede ser calculado acorde a la
siguiente fórmula:
𝑄2 = 1 −∑(𝑦𝑖 − 𝑦�̂� )2
∑(𝑦𝑖 −𝑦 ̅)2 (9)
donde, 𝑦𝑖 , 𝑦�̂� 𝑦 𝑦 ̅ es la respuesta observada, estimada y media del i-ésimo caso,
respectivamente. Cuando se utiliza un solo compuesto en cada grupo de VC (lo cual da N
grupos), el procedimiento se conoce como dejar “uno” fuera (LOO, acrónimo de Leave-
One-Out). (Shao, 1993).
ANTECEDENTES Y MARCO TEÓRICO
En la técnica de validación por Bootstrap, la talla original del conjunto de datos (n) es
preservada en la serie de entrenamiento, a partir de la seleccionan m objetos (𝑛 > 𝑚) que
son asignados al conjunto de evaluación y estos son sustituidos por m objetos repetidos de
la serie de entrenamiento(Efron, 1982, Efron, 1987). El modelo es calculado en el conjunto
de entrenamiento y las respuestas son predichas en el conjunto de evaluación. Las diferencias
de los cuadrados entre las respuestas ciertas y las predichas son recogidas en el PRESS. Este
procedimiento de elaboración del conjunto de entrenamiento es repetido miles de veces, los
PRESS son sumados y el poder predictivo promedio es calculado(Efron, 1982, Wehrens et
al., 2000).
El método del revuelto [prueba de aleatoriedad (y-sc: y-scrambling)] es empleado para
evaluar la correlación al azar(Tropsha et al., 2003, Wold and Erikson, 1995). En esta técnica,
se calcula un modelo de regresión lineal para la verdadera variable respuesta (y) junto con
un número de regresiones repetidas (200-300 veces) con las mismas variables, pero con la
variable dependiente aleatoriamente revuelta (ỹ). Luego se calcula para cada modelo la
varianza explicada q2LOO, y se evalúa la correlación entre la respuesta verdadera y la
revuelta(Clark and Fox, 2004) de la siguiente manera:
𝑞𝑘2 = 𝑎 + 𝑏. 𝑟𝑘(𝑦,𝑦�̃�) (10)
donde, la 𝑞𝑘2 es la varianza explicada para el modelo obtenido con los mismos predictores
teniendo el k-ésimo vector revuelto, 𝑟𝑘 es la correlación entre los vectores para la respuesta
verdadera y la k-ésima revuelta. Un valor del intercepto cercano a cero implica que el modelo
no es obtenido al azar mientras que un intercepto grande indica que los modelos aleatorios
ANTECEDENTES Y MARCO TEÓRICO
poseen el mismo desempeño que el modelo verdadero, por lo que se pudiera considerar
aleatorio(Clark and Fox, 2004, Rücker et al., 2007).
1.3.2.7- Validación externa.
La validación externa permite evaluar si los modelos obtenidos son generalizables a nuevos
compuestos químicos y el “verdadero” poder predictivo de los mismos(Tropsha et al., 2003).
Para esto se divide la data en 2 conjuntos: la serie de entrenamiento (sirve para construir el
modelo) y la serie de predicción (no utilizada en la selección de variables ni en el desarrollo
del modelo, pero usada exclusivamente para evaluar el modelo tras su formación).
1.3.2.8- Compuestos ‘outliers’ y técnicas para la selección de los mismos.
Los ‘outliers’ son puntos que se desvían significativamente del modelo encontrado (no se
ajustan al modelo) o son pobremente predichos por estos, afectando los parámetros
estadísticos del mismo(Gonzalez Diaz et al., 2002). Generalmente, la identificación de
‘outliers’ busca un mejoramiento cualitativo del modelo. Un buen ejemplo ha sido mostrado
por Cronin y col. en la modelación de la toxicidad de compuestos carbonílicos alifáticos para
T. Pyriformis(Golbraikh et al., 2001). En este estudio, para un total de 140 compuestos solo
se obtuvo un moderado ajuste estadístico ( 2R = 0.753). Sin embargo, al remover cinco
outliers 2R aumentó hasta 0.853(Golbraikh et al., 2001). Existen varias técnicas para detectar
la presencia de ‘outliers’, tales como: los análisis de los residuales estandarizados, el método
de Leverage, análisis de componentes principales, la estadística DFITS, análisis de clúster,
la distancia de Cook y el método de dejar “varios” fuera(Pyka and Planar., 1993).
1.3.2.9- Análisis de Componentes Principales (ACP).
En estadística, el análisis de componentes principales (en español ACP, en inglés, PCA) es
una técnica utilizada para describir un set de datos en términos de nuevas variables
ANTECEDENTES Y MARCO TEÓRICO
("componentes") no correlacionadas. Los componentes se ordenan por la cantidad de
varianza original que describen, por lo que la técnica es útil para reducir la dimensionalidad
de un conjunto de datos.
Técnicamente, el ACP busca la proyección según la cual los datos queden mejor
representados en términos de mínimos cuadrados. Esta convierte un conjunto de
observaciones de variables posiblemente correlacionadas en un conjunto de valores de
variables sin correlación lineal llamadas componentes principales. El ACP se emplea sobre
todo en análisis exploratorio de datos y para construir modelos predictivos(Peres-Neto et al.,
2005).
El ACP construye una transformación lineal que escoge un nuevo sistema de coordenadas
para el conjunto original de datos en el cual la varianza de mayor tamaño del conjunto de
datos es capturada en el primer eje (llamado el Primer Componente Principal o PC1), la
segunda varianza más grande es el segundo eje como PC2, y así sucesivamente. Para
construir esta transformación lineal debe construirse primero la matriz de covarianza o matriz
de coeficientes de correlación. Debido a la simetría de esta matriz existe una base completa
de vectores propios de la misma. La transformación que lleva de las antiguas coordenadas a
las coordenadas de la nueva base es precisamente la transformación lineal necesaria para
reducir la dimensionalidad de datos. Además las coordenadas en la nueva base dan la
composición en factores subyacentes de los datos iniciales(Peres-Neto et al., 2005, Abdi and
Williams, 2010).
El ACP es particularmente útil para reducir la dimensionalidad de un grupo de datos. Los
primeros componentes principales describen la mayor parte de la varianza de los datos (más
ANTECEDENTES Y MARCO TEÓRICO
cuanto más correlacionadas estuvieran las variables originales). Estos componentes de bajo
orden a veces contienen el aspecto "más importante" de la información, y los demás
componentes se pueden ignorar.
Supongamos que existe una muestra con n individuos para cada uno de los cuales se han
medido m variables (aleatorias) Fj. El ACP permite encontrar un número de factores
subyacentes p < m que explican aproximadamente el valor de las m variables para cada
individuo. El hecho de que existan estos p factores subyacentes puede interpretarse como una
reducción de la dimensionalidad de los datos: donde antes necesitábamos m valores para
caracterizar a cada individuo ahora nos bastan p valores. Cada uno de los p encontrados se
llama componente principal(Peres-Neto et al., 2005).
Existen diferentes técnicas para estimar el número de componentes principales que son
relevantes(Peres-Neto et al., 2005):
1. Método basado en la matriz de correlación, cuando los datos no son
dimensionalmente homogéneos o el orden de magnitud de las variables aleatorias
medidas no es el mismo.
2. Método basado en la matriz de covarianzas, que se usa cuando los datos son
dimensionalmente homogéneos y presentan valores medios similares.
ANTECEDENTES Y MARCO TEÓRICO
Materiales y Métodos
MATERIALES Y MÉTODOS
“El que aprende y aprende y no practica lo que aprende, es como el que ara y ara y nunca siembra. ’’
Platón
MATERIALES Y MÉTODOS
En este capítulo se abordan los principales métodos empleados para el cálculo de las
funciones matemáticas que describen el comportamiento de las moléculas con respecto a sus
propiedades de atravesar la BHE.
2 MATERIALES Y MÉTODOS:
2.1 Base de Datos.
La base de datos que se utilizó en este trabajo fue confeccionada por los autores Yoan Brito-
Sánchez, Yovani Marrero-Ponce, Stephen J. Abrigue, Hong Le-Thi-Thu y Artem
Cherkasov(Yoan Brito-Sánchez, 2015). Esta base de datos fue construida después de una
extensa búsqueda en la literatura internacional, los datos de las moléculas y sus respectivas
actividades de atravesar la BHE fueron extraídos directamente de los artículos y
publicaciones en las cuales se encontraban, este conjunto de moléculas poseen una gran
relevancia ya que los resultados obtenidos reflejan la base de datos más amplia y diversa de
las reportadas hasta el momento en la literatura internacional de compuestos a los cuales se
les haya determinado experimentalmente la capacidad de atravesar la BHE, además en esta
se incluyen nuevas moléculas, las cuales nunca habían estado presente en estudios QSAR.
Al contar con un conjunto de moléculas tan extensa, es recomendable hacer un estudio previo
sobre las mismas. Los pasos más importantes incluyeron la eliminación de compuestos
inorgánicos y organometálicos, mezclas y curación de formas tautoméricas. También las
MATERIALES Y MÉTODOS
sales orgánicas (sales con Na+, K+, Ca2+) se convirtieron en sus correspondientes formas
neutras, y solo se retuvo un compuesto en caso de isomería (cualquier par de enantiomeros o
diastereoisómeros se reconocieron como duplicados). Además, al final del proceso, del
curado del conjunto de datos, se realizó también en el conjunto de datos original. En este
paso, cada estructura se visualizó y se inspeccionó manualmente para detectar estructuras
que, por alguna razón pudieran escapar a los pasos de conservación automática descritos
anteriormente(Brito‐Sánchez et al., 2015). Posteriormente se ordenó la data set, combinando
todos los conjuntos de índices de distribución, pero no los promediamos. Los valores finales
de log BBB se seleccionaron sobre la base de su uniformidad con respecto a las
determinaciones experimentales(Brito‐Sánchez et al., 2015). Posteriormente en otros
estudios se pudo identificar que valores de log BBB en el rango desde -2 hasta 2 poseen el
mayor potencial de aplicación para muchos de los modelos reportados en la literatura(Begley,
2000, Abbott et al., 2010b), Al incluir 579 moléculas este conjunto de compuestos es capaz
de caracterizar el espacio químico en mayor medida que los estudios que le
anteceden(Lanevskij et al., 2011, Mensch et al., 2009, Zerara et al., 2009, Chen et al., 2011,
Zhang et al., 2010a). Esto permitirá, una vez que se encuentre a disposición de la comunidad
científica, que sea posible investigar y abordar nuevos análisis predictivos del poder de
atravesar la BHE de moléculas químicas con una mayor precisión y examinando otros
factores que hasta el momento no se han considerado en este tipo de estudio. La base de datos
con que se trabajó se puede encontrar en el anexo 2.
MATERIALES Y MÉTODOS
2.2 Métodos Computacionales de Cálculo.
2.2.1-Cálculo de los nuevos Índices de Derivada del Grafo. Programa TOMOCOMD-
CARDD(DIVATI).
La definición de los nuevos DMs tiene como propósito final su uso como una herramienta
para el diseño molecular y en diversos estudios teóricos, es por ello muy importante facilitar,
desde un punto de vista computacional, el cálculo de estos DMs para que pueda ser utilizado
por cualquier investigador interesado, sin que el mismo cuente con grandes conocimientos
de informática. Con este fin se desarrolló una aplicación visual, escrita en el lenguaje de
programación JAVA denominado DIVATI (Acrónimo de DIscrete DeriVAtive Type
Indices), un nuevo módulo del programa TOMOCOMD-CARDD (acrónimo de Topological
Molecular COMputational Design Computed-Aided ‘Rational’ Drug Design)(Marrero-
Ponce et al., 2004). Este programa carga las estructuras en ficheros de formato .MDL, .mol
y .sdf, y permite salvar los descriptores calculados en ficheros de tipo .txt, .xls, .xlsx y .csv.
Este programa facilita el cálculo de todas las familias de Nuevos índices basados en la
derivada discreta de un grafo: derivadas, derivadas de orden superior y derivadas mixtas,
sobre pares (duplas), tríos (ternas) y cuartetos (cuaternas) de átomos en cualquier tipo de
estructura química orgánica. Para la diferenciación atómica se dispone de una serie de 21
ponderaciones (etiquetas) atómicas, agrupadas en tres grandes grupos: Químicas [número
atómico (Z), volumen de Van der Walls (W), polarizabilidad (P), masa atómica (A), radio
covalente (R), electronegatividad de Pauling (E)], Físicas [área superficial polar total (T),
contribución atómica al logP (G), contribución atómica a la refractividad molar (M), carga
(C)] y Topológicas basadas en diferentes criterios de Grados del Vértice [grado de valencia
(N), conectividad excéntrica (Y), estado electrotopológico (S), grado del vértice de Kupchik
(K), estado intrínseco (I), grado del vértice de enlace (B), grado del vértice de Li (D), grado
MATERIALES Y MÉTODOS
del vértice de Hu-Xu (H), grado del vértice de Alikhanidi (L), grado del vértice de Ivanciauc
(V), conteo de distancias (O)]. El programa permite además realizar cálculos locales
atómicos individuales y para grupos de átomos [heteroátomos (HT), halógenos (HL),
aceptores de protones (AH), donantes de protones (DH), carbonos metilos (MC),
insaturaciones (IS), grupos a una longitud k (GL)]. Para los cálculos locales de grupos de
átomos se aplican operadores matemáticos. Si al avaluar estos operadores se tienen en cuenta
todos los átomos de la molécula el resultado será un cálculo global (total) de la molécula. En
el software DIVATI estos operadores han sido denominados colectivamente como
invariantes y agrupados en normas, medias, estadísticos y algoritmos clásicos y constituyen
una generalización del uso de la combinación lineal de las contribuciones atómicas para la
descripción global de la molécula.
2.2.2- Análisis de Variabilidad (AV). Programa IMMAN.
La calidad de los nuevos DMs, que se proponen en este trabajo, puede ser evaluada y
comparada si se emplea la técnica de AV basada en el cálculo de la Entropía de Shannon
(SE) para los estos índices.(Godden and Bajorath, 2000, Godden and Bajorath, 2002, Barigye
et al., 2014) Con esta técnica se estima la cantidad de información codificada por los
diferentes parámetros moleculares, como entidades independientes, y luego se comparan los
valores entrópicos de estos. Es importante en este método definir el número de intervalos
discretos a emplear, el cual es único para todas las variables que se comparen. Esto permite
que los DMs de diferentes unidades y rangos de valores sean comparables. Adicionalmente,
para comparaciones más cómodas, es deseable que las datas que se comparen tengan el
mismo número de variables, por lo que en estudios donde se compararon datas con diferentes
números de variables, se aplicaron puntos de corte teniendo en cuenta la de menor número
de variables.
MATERIALES Y MÉTODOS
Con motivo de realizar el análisis de variabilidad de los parámetros moleculares propuestos
en el presente trabajo, se ha implementado una herramienta computacional fundamentada en
los conceptos de la teoría de información la cual se denomina IMMAN (acrónimo de
Information Theory based CheMoMetric ANalysis). Este programa permite el cálculo de la
SE a los DMs, además de otros parámetros derivados de transformaciones matemáticas de la
SE, tales como: la entropía de Shannon estandarizada (sSE), la Negentropía (nSE), el índice
de redundancia de Brillouin (rSE), el índice de Gini (gSE) y el contenido de la energía de
información (iSE). Otros parámetros basados en la teoría de información implementados en
este programa incluyen la entropía diferencial generalizada (DSE) y la información de Jeffrey
(JI). Los formatos de ficheros de entrada para el IMMAN incluyen .txt y .csv.
2.2.2.1- Selección de los mejores descriptores moleculares.
La degeneración de descriptores moleculares se refiere a la capacidad de un DMs para evitar
la obtención de valores idénticos para moléculas diferentes. Es posible entonces que, los
descriptores no posean degeneración (N) o presenten algún tipo de degeneración que puede
ser baja (L), intermedia (I) o alta (H). El grado de degeneración de un descriptor puede ser
medido por la Entropía de Shannon.
El contenido de información y la entropía de Shannon de los DMs han sido extensivamente
estudiados por Godden y colaboradores.(Godden and Bajorath, 2000, Godden and Bajorath,
2002, Godden and Bajorath, 2003) Basándose en estas ideas, un análisis de variabilidad
cuantifica el contenido de información y, por lo tanto, la variabilidad de los DMs, basado en
el concepto de entropía de Shannon. Para esto se cuenta con un procedimiento de
discretización empleando los histogramas de distribución de frecuencias. Sea p(a)i la
MATERIALES Y MÉTODOS
probabilidad de que el caso a esté en intervalo i, para un número de intervalos N se construye
una función de distribución de probabilidades, P(A), a la cual se le aplica la ecuación:
𝐻 = − ∑ 𝑝𝑖 ∙ 𝑙𝑜𝑔2(𝑝𝑖)𝑛𝑖=1 (11)
De esta forma se obtiene la entropía de cada variable (DMs), siendo elevada para variables
de alta variabilidad y mínima para las de poca variabilidad en la data. Por tanto, esta técnica
permite evaluar la calidad de los DMs como entidades independientes y se ha utilizado en la
literatura para comparar el desempeño de conjuntos de DMs implementados de diferentes
paquetes computacionales, así como en estudios de diversidad molecular.(Godden and
Bajorath, 2000, Barigye et al., 2013a, Barigye et al., 2013b, Barigye et al., 2014, Godden et
al., 2000)
La degeneración es un atributo no deseable para un DMs usado en la caracterización de
estructuras químicas.
Se debe esperar que para una base de datos tan diversa como es con la que hemos trabajado
los DMs que tienen mayor variabilidad aporten mejores resultados. Con el objetivo de
encontrar los descriptores moleculares que mayor variabilidad los anteriormente DMs
calculados fueron sometidos a un análisis con el software IMMAN, el cual reportó el valor
de la entropía de Shannon y permitió seleccionar los DMs más entrópicos, a su vez los más
degenerados.
2.2.3- Regresión Lineal Múltiple (RLM). Programa MobyDigs
2.2.3.1- Programa MobyDigs.
Los modelos de regresión QSPR/QSAR se obtuvieron con el programa MOBYDIGS
(versión 1.0 – 2004)(Gramatica and Papa, 2005). Los pesos de cada descriptor en la ecuación
de regresión son determinados por el método de mínimos cuadrados. Este programa utiliza
MATERIALES Y MÉTODOS
un Algoritmo Genético como método de selección de parámetros, lo que le permite evaluar
un número elevado de variables. Para cada estudio QSPR/QSAR, se determinó el tamaño
(grado de libertad) deseado para los modelos a generar. El tamaño de la población para todos
los estudios fue fijado a 100. El AG con un tamaño poblacional inicial de 100 rápidamente
converge (200 generaciones) y alcanza un modelo QSAR en un número razonable de
generaciones y por tanto un tiempo prudencialmente aceptable. La optimización y elección
de los mejores modelos fueron desarrollados teniendo en cuenta los siguientes estadígrafos:
(función de optimización) del algoritmo genético el estadígrafo q2LOO y los modelos fueron
validados empleando las técnicas de re-muestreo [bootstrapping (q2boot)], revuelto [Y-
scrambling: a (R2), a (q2)]. La selección del mejor modelo fue desarrollada en términos del
mayor coeficiente de correlación al cuadrado [coeficiente de determinación, (R2)] y la(s)
ecuación(es) de la desviación estándar más baja. Se analizaron los parámetros estadísticos
q2LOO (validación cruzada “dejando uno afuera”) y el q2
boot para evaluar la calidad de los
modelos.
2.2.3.1- Análisis de Componentes Principales (Método basado en las covarianzas).
Identificación de compuestos outliers.
El objetivo de este método es transformar un conjunto dado de datos X de dimensión n x m
a otro conjunto de datos Y de menor dimensión n x l con la menor perdida de información
útil posible utilizando para ello la matriz de covarianza (Peres-Neto et al., 2005).
Se parte de un conjunto n de muestras cada una de las cuales tiene m variables que las
describen y el objetivo es que, cada una de esas muestras, se describa con solo l variables,
donde l < m. Además, el número de componentes principales l tiene que ser inferior a la
menor de las dimensiones de X.
MATERIALES Y MÉTODOS
𝑙 ≤ 𝑚𝑖𝑛 {𝑛, 𝑚}
Los datos para el análisis tienen que estar centrados a media 0 (restándoles la media de cada
columna) y/o autoescalados (centrados a media 0 y dividiendo cada columna por su
desviación estándar).
𝑋 = ∑ 𝑡𝑎𝑙𝑎=𝑙 𝑃𝑎
𝑇 + 𝐸 (12)
Los vectores ta son conocidos como scores y contienen la información de cómo las muestras
están relacionadas unas con otras además, tienen la propiedad de ser ortogonales. Los
vectores Pa se llaman loadings e informan de la relación existente entre las variables y tienen
la cualidad de ser ortonormales. Al coger menos componentes principales que variables y
debido al error de ajuste del modelo con los datos, se produce un error que se acumula en la
matriz E (Peres-Neto et al., 2005).
El ACP se basa en la descomposición en vectores propios de la matriz de covarianza. Las
cuales se calcula con las siguientes ecuaciones:
𝑐𝑜𝑣(𝑋) =𝑋 𝑋𝑇
𝑛−1 (13)
𝑐𝑜𝑣(𝑋)𝑃𝑎 = 𝜆𝑎𝑃𝑎 (14)
∑ 𝜆𝑎𝑚𝑎=1 = 1 (15)
Donde λa es el valor propio asociado al vector propio Pa. Por último,
𝑡𝑎 = Χ 𝑃𝑎 (16)
MATERIALES Y MÉTODOS
Esta ecuación la podemos entender como que ta son las proyecciones de X en Pa, donde los
valores propios λa miden la cantidad de varianza capturada, es decir, la información que
representan cada uno de los componentes principales. La cantidad de información que
captura cada componente principal va disminuyendo según su número es decir, el
componente principal número uno representa más información que el dos y así
sucesivamente (Peres-Neto et al., 2005).
2.2.4- Regresión no-lineal múltiple. Programa KNIME.
El programa KNIME (Software Libre): es una herramienta libre para el aprendizaje
automático, lanzada en el año 2006, sus creadores pertenecen a la comunidad de la
universidad de Konstanz (Alemania). Knime (www.knime.org) es una plataforma modular
de exploración de datos que permite al usuario la creación de flujos de manera visual.
Además permite ejecutar de manera selectiva algunos pasos, así como ejecutar todo el flujo
desarrollado. Posterior a la ejecución, los resultados se pueden investigar mediante varias
vistas interactivas tanto de los datos como los modelos (Abet et al., 2012). KNIME es un
software que posee dentro de sus utilidades la habilidad de poder trabajar con funciones que
corresponden a otros software como por ejemplo el WEKA, DRAGON(Mauri et al., 2006),
entre otros, es una plataforma interactiva que permite crear flujos de trabajos de manera muy
didáctica y fácil, para este trabajo solo se utilizaron las funciones pertenecientes al software
WEKA.
WEKA por sus siglas en inglés (Waikato Environment for Knowledge Analysis)(Hall et al.,
2009) es una herramienta que permite la experimentación de análisis de datos mediante la
aplicación, análisis y evaluación de las técnicas más relevantes de análisis de datos,
MATERIALES Y MÉTODOS
principalmente las provenientes del aprendizaje automático, sobre cualquier conjunto de
datos del usuario(Boser et al., 1992, Cortes and Vapnik, 1995, Vapnik, 1999).
El mismo contiene herramientas para realizar transformaciones sobre los datos, tareas de
clasificación, regresión, agrupamiento, asociación y visualización.
WEKA es un conocido programa para aprendizaje automático y minería de datos escrito en
Java y desarrollado en la Universidad de Waikato. WEKA es una colección de algoritmos de
aprendizaje automático para la extracción de datos tareas. Los algoritmos pueden ser
aplicados directamente a un conjunto de datos o llamar desde su propio código Java. WEKA
contiene herramientas para los datos de pre-procesamiento, clustering, reglas de asociación,
y la visualización, así como clasificación, regresión usando las Máquinas de Soporte
Vectorial(Kalmegh, 2015, Danilo, 2010, Sch and Smola, 2002, Keerthi et al., 2001, Shevade,
1999).
Resultados y Discusión
RESULTADOS Y DISCUSIÓN
“Un problema no puede ser resuelto en el mismo nivel de pensamiento en el que se generó’’
Albert Einstein
RESULTADOS Y DISCUSIÓN
En este capítulo se exponen los principales resultados que se obtuvieron. Se muestran
además la discusión e interpretación de cada resultado y de las variables (DMs) que
demostraron tener mayor relación con la actividad estudiada.
3 RESULTADOS Y DISCUSIÓN:
3.1- Cálculo de los nuevos Índices de Derivada del Grafo.
Se desarrollaron cálculos de los Índices de Derivada del Grafo (GDI) para pares, ternas y
cuaternas de átomos respecto a 5 eventos diferentes que generan modelos diversos para
describir la estructura molecular estos eventos fueron: 1. Connected Sub-Graphs(S); 2.
Multiplicity (M); 3. Sach (H); 4. Sub-Structure (B); 5. Alog P (A). Los átomos en cada
molécula fueron diferenciados usando diversas ponderaciones químicas, físicas y topológicas
basadas en grados del vértice como electronegatividad de Pauling (E), polarizabilidad (P),
volumen de Van der Waals (W), área de superficie total polar TPSA (T), AlogP (G), grado
del vértice de Ivaniciuc (V), estado Electrotopológico (S), grado del vértice Alikhanidi (L),
grado del vértice de Bond(B), grado del vértice de Hu-Xu’s (H). Se cuantificaron además,
índices globales y locales sobre heteroátomos (HT), halógenos (HL), aceptores de protones
(AH), carbonos metilos (MC) y enlaces insaturados (IS).
Todos los cálculos fueron desarrollados en el programa interactivo DIVATI, nuevo módulo
del software TOMOCOMD-CARDD, donde están implementadas todas las familias de
índices basadas en el concepto de Derivada Discreta de un Grafo.
RESULTADOS Y DISCUSIÓN
Después de un análisis de variabilidad vasado en la entropía de Shannon realizado con el
programa IMMAN se decidió confeccionar una data para la obtención de los modelos con
178 DMs siendo estos la más entrópicos, los de menor degeneración y los más ortogonales
entre sí.
3.2- Modelos de RLM.
3.2.1- Modelo inicial de RLM.
Se encontró un modelo inicial de RLM entre la actividad biológica de atravesar la BHE y el
conjunto químico de 579 moléculas con el programa MobyDigs 1.0. Este programa usa el
algoritmo genético como método de selección de parámetros y el Q2Loo como función
objetivo para escoger los mejor modelos. Además el software permite obtener varios
parámetros estadísticos para evaluar la calidad de los modelos.
El mejor modelo de regresión lineal obtenido para describir la actividad de atravesar la BHE
de las moléculas de la base de datos, los parámetros estadísticos y sus correspondientes
gráficos de regresión y predicción se muestran a continuación:
Tabla 1: Mejor modelo con sus respectivos coeficientes y errores.
Parámetros estadísticos del Modelo:
No.Var. = 14; R2 = 78.54; Q2loo = 74.05; s = 1.1952; a (R2) = 0.008; a (Q2) = -0.046
RESULTADOS Y DISCUSIÓN
Gráficos:
Figura 1: Gráfico de predicción.
Figura 2: Gráfico de regresión.
RESULTADOS Y DISCUSIÓN
3.2.1.1- Interpretación del Modelo.
Los parámetros estadísticos de este modelo muestran un moderado ajuste a los resultados
experimentales lo que demuestra una relación lineal entre los descriptores y la capacidad de
atravesar la BHE reportadas para las moléculas. La ecuación del modelo de RLM con 14
variables explica más del 78 % del comportamiento de la propiedad en las moléculas.
Como se pudo observar en los gráficos anteriores y en los parámetros estadísticos el modelo
posee una aceptable capacidad de ajuste a los datos experimentales. Además se debe tener en
cuenta que se está modelando una actividad biológica, esta es una modelación muy compleja
ya que depende, además de la estructura, de otros factores no controlables por el
experimentador, como por ejemplo: el efecto de la matriz biológica sobre la capacidad
individual de acción de cada una de las moléculas y los diferentes mecanismos por los cuales
las moléculas atraviesan la BHE ;sin embargo se asume que la estructura química posee el
protagonismo en cuanto a influenciar el valor de la propiedad.
3.2.2- Identificación y eliminación de las moléculas outliers.
Para este trabajo se utilizó un análisis de componentes principales usando el método de la
covarianza, con este objetivo se utilizó el programa MobyDigs el cual posee las herramientas
estadísticas necesaria para realizar este análisis, el software una vez que confecciona el
modelo de RLM realiza un ACP de las variables que pertenecen al modelo, estos fueron los
resultados arrojados:
RESULTADOS Y DISCUSIÓN
Figura. 3 Gráfico del ACP donde se grafica PC1 vs PC2.
Después del análisis de este gráfico se pudo identificar 19 moléculas que se alejan del
comportamiento del modelo, según sus parámetros estadísticos de acuerdo al ACP:
1. Cyclosporine A 8. digoxin 14. saquinavir (invirase)
2. mivacurium 9. rifampicin 15. DPDPE
3. doxacurium 10. paclitaxel 16. rapacuronium
4. 4-Fluoropaclitaxel 11. pipecuronium 17. cisatracurium besylate
5. Ivermectin 1a 12. pancuronium 18. brezal
6. vincristine 13. norcuron 19. carnitine
7. vinblastine
Como podemos esperar, los parámetros de ajustes del modelo para este conjunto de 19
moléculas no son adecuados. Sin embargo, después de tratar de encontrar explicaciones
RESULTADOS Y DISCUSIÓN
adicionales (no solo razones estadísticas) del comportamiento anómalo de estos compuestos,
parece realmente interesante, que la gran mayoría de ellos están relacionados con
transportadores activos, factores metabólicos y demás. Estos hallazgos concuerdan con los
de estudios relacionados que excluyeron compuestos ya sea porque eran atípicos o tenían
características estructurales relacionadas con estos procesos, (Mensch et al., 2009) (Brito‐
Sánchez et al., 2015).
Tabla 2: Moléculas consideradas outliers y la razón por las cuales fueron excluida.
No Nombre Comentario Referencia (donde
aparece)
1 Ivermectin 1a *P-gpefflux (Adenot and
Lahana, 2004)
2 Rapacuronium Identificado como outliers por Garg, P. and Verma, J.
(Garg and Verma)
3 Cyclosporine A *P-gp efflux (Adenot and
Lahana, 2004, Usansky and Sinko, 2003,
Garberg et al., 2005)
4 Norcuron Identificado como outliers por Garg, P. and Verma, J.
(Garg and Verma, 2006)
6 4-Fluoropaclitaxel
Posible subestructura del P-gp (Adenot and Lahana, 2004) Posible atípico estructuralmente
7 Brezal Identificado como respuesta atípica (Brito‐Sánchez
et al., 2015)
8 DPDPE Identificado como respuesta atípica (Brito‐Sánchez et al., 2015)
* P-glicoproteína. * OCT (un transportador que facilita el transporte a través de la membrana)
apical de una célula epitelial) (Usansky and Sinko, 2003)
Para el resto de las moléculas no fue posible identificar el porqué de su comportamiento
atípico aunque existen referencias que reportan que valores de -2 < log BBB > 2 son
moléculas con poder para atravesar la BHE (Begley, 1996) (Abbott et al., 2010b). Las
RESULTADOS Y DISCUSIÓN
moléculas aquí identificadas como outliers poseen valores de log BBB fuera de este rango
que son reportados junto con su estructura en el anexo 3.
3.2.3 Modelo de RLM con data modificada.
Para la obtención de este modelo de RLM se sometió la data resultante de eliminar estas 19
moléculas al mismo análisis que se siguió para la obtención del primero. Con el objetivo de
mejorar el poder predictivo de este modelo se separó la data en dos, en serie de entrenamiento
(treining data) y serie de predicción (tes data) de manera que en la serie de entrenamiento
entraran 420(75%) moléculas y en la serie de predicción 140(25%) moléculas, el
procedimiento que se siguió para la separación de la data fue de manera aleatoria. Las
moléculas que se refieren anteriormente que entraron en la serie de entrenamiento y de
predicción están expuestas en el anexo 4.
Los resultados obtenidos, así como los parámetros estadísticos y sus correspondientes
gráficos de regresión y predicción se muestran a continuación:
RESULTADOS Y DISCUSIÓN
Tabla 3: Mejor modelo con sus respectivos coeficientes y errores.
Parámetros estadísticos del Modelo:
No.Var. = 15; R2 = 86.58; Q2 = 84.44; Q2boot = 76.30; s = 0.565; a (R2) = 0.020; a(Q2) = -0.091
Gráficos:
Figura 4: Gráfico de predicción.
RESULTADOS Y DISCUSIÓN
3.2.3.1 Interpretación del Modelo.
Los parámetros estadísticos de este modelo muestran un buen ajuste a los resultados
experimentales, lo que demuestra una relación lineal moderada entre los descriptores y la
capacidad de atravesar la BHE reportadas para las moléculas. La ecuación del modelo de
RLM con 15 variables predice el comportamiento de más del 86 % de la propiedad biológica
de las moléculas.
Como puede observarse en el gráfico anterior y en los parámetros estadísticos el modelo
posee una buena capacidad de ajuste a los datos experimentales. Este modelo mejora
apreciablemente al primero obtenido esto debido a la eliminación de las moléculas que
consideramos que se desvían el comportamiento experimental.
3.2.4 Segunda selección de outliers y modelo de RLM modificado:
Se encontró un nuevo modelo de RLM entre la actividad biológica de atravesar la BHE y un
conjunto químico de 550 moléculas con el programa MobyDigs 1.0. Esta base de dato de 550
moléculas fue el resultado de eliminar de la misma un conjunto químico de 29 entidades
químicas para los cuales se reportaban valores de log BBB con valores fuera del rango de -2
<log BBB > 2, considerados como parámetros atípicos en diferentes trabajos de
modelaciones con bases de datos similares(Begley, 1996, Begley, 2000, Arthur M. Butt,
1990). Las moléculas que entraron en la serie de entrenamiento y en la serie de predicción
están reportadas en el anexo 4.
El mejor modelo de regresión lineal obtenido para describir la actividad de atravesar la BHE
de las moléculas de la base de datos, los parámetros estadísticos y sus correspondientes
gráficos de regresión y predicción se muestran a continuación:
RESULTADOS Y DISCUSIÓN
Tabla 4: Mejor modelo con sus respectivos coeficientes y errores.
Parámetros estadísticos del Modelo:
No.Var. = 15; R2 = 49.75; Q2loo = 45.60; s = 0.5204
Gráficos:
Figura 5: Gráfico de predicción.
RESULTADOS Y DISCUSIÓN
Figura 6: Gráfico de regresión.
3.2.4.1- Interpretación del Modelo.
Los parámetros estadísticos de este modelo muestran un pobre ajuste a los resultados
experimentales lo que demuestra una escasa relación lineal entre los descriptores y la
capacidad de atravesar la BHE reportadas para las moléculas. La ecuación del modelo de
RLM con 15 variables solo se aplica para un 50% del comportamiento de la propiedad
bilógica de las moléculas.
Como se pudo observar en los gráficos anteriores y en los parámetros estadísticos el modelo
no posee una buena capacidad de ajuste a los datos experimentales. Esto debido a que la
segunda determinación de outliers no fue del todo satisfactorio ya que al disminuir el rango
de trabajo de la propiedad biológica se pierde información valiosa; porque se debe tener en
cuenta que se está modelando una actividad biológica y en este trabajo se considera que la
misma depende exclusivamente de la estructura química de la molécula, excluyendo los
RESULTADOS Y DISCUSIÓN
mecanismos biológicos que puedan estar presentes, que escapan así del alcance de nuestra
modelación.
3.3 Regresión no lineal.
Una vez encontradas los mejores modelos de RLM, se hace necesario recurrir a la aplicación
de técnicas no lineales debido a que puede que el modelo se ajuste con mayor precisión a una
regresión del tipo no lineal. Por lo tanto, con los descriptores previamente calculados y la
data de moléculas que se le extrajeron las primeras 19 moléculas reportadas como outliers en
la tabla 2, se procede a la utilización de técnicas no lineales con la ayuda del software
KNIME, el cual está provisto de algoritmos para este tipo de modelación, para este caso
específico se utilizó una Máquina de Soporte Vectorial para la regresión (SMOreg).
3.3.1- Interpretación del modelo no lineales.
Se encontró un modelo no lineal para la actividad de traspasar le BHE con el método de las
Máquinas de Soporte Vectorial para la regresión (SMOreg) que está implementado en el
software KNIME, empleando una complejidad unitaria (C = 1) y la función PoliKernel con
exponente 1. En dicho modelo influyeron atributos basados en heteroátomos y donantes de
hidrógeno fundamentalmente, que son los que poseen una mejor capacidad de ajuste con la
regresión, el poder de predicción de cada DMs se muestra en el anexo 5. Los resultados se
exponen a continuación:
Parámetros estadísticos del ajuste:
N= 560 R2= 0.807 s2 = 0.766
RESULTADOS Y DISCUSIÓN
Figura 7. Flujo de trabajo desarrollado en el programa KNIME para la función SMOreg.
Figura 8. Diálogo de la función SMOreg
RESULTADOS Y DISCUSIÓN
3.3.2- Discusión de los resultados de la regresión no lineal:
Como puede observarse en los parámetros estadísticos reportados en la tabla 5 el modelo no
lineal no supera la capacidad de ajuste a los datos experimentales con respecto a la técnica
de RLM para los mismos atributos reportados en la tabla 1. Con respecto a la robustez del
modelo, el valor del coeficiente de correlación de 0.807 es aceptable teniendo en cuenta las
características de esta modelación. Un análisis de los descriptores que entran en el modelo
de regresión no lineal reportados en el anexo 5 demuestra que la gran mayoría de los
descriptores están ponderados en la matriz de incidencia, donde el peso fundamental de la
estructura de las moléculas lo poseen los heteroátomos que están presentes en la misma,
siendo así que la mayoría de las DMs que están presentes en el modelo son de incidencias
local sobre estos heteroátomos de las moléculas.
Comparación entre técnicas lineales y no lineales:
Tabla 5. Comparación entre el método lineal y no lineal
MÉTODO N R2 Q2 S2
RLM (IDENTIFICADOS
19 OUTLIERS)
560 86.58 84.44 0.319
NO LINEAL
(SMOREG)
560 80.7 0.766
RLM 579 78.54 74.05 1.428
RLM (IDENTIFICADOS
29 OUTLIERS)
550 49.75 45.60 0.5204
Como se evidencia en la tabla anterior los resultados obtenidos con la RLM donde se trabaja
con una base de datos a la cual se le fue identificado los outliers supera al modelo obtenido
con la regresión no lineal. Es importante señalar que los estudios realizados en este trabajo
RESULTADOS Y DISCUSIÓN
son significativamente buenos, ya que a pesar de que se está modelando una actividad
biológica, que siempre se hace complicada debido a que no se tiene en cuenta el mecanismo
por la cual ocurre el proceso en el organismo, ni la matriz biológica en que se desarrolla el
mismo, se obtuvieron resultados satisfactorios. De manera general cabe señalar que el estudio
del comportamiento de las moléculas en el modelo que se realizó con el fin de identificar los
outlier y posterior separación de la data arrojaron los resultados esperados, la superioridad
en los parámetros estadísticos así lo demuestran.
RESULTADOS Y DISCUSIÓN
3.4 Estudio comparativo sobre modelos reportados en la literatura con respecto a
este trabajo donde se utiliza la misma data.
Tabla 6. Resultados comparativos
Estudio N Q* Método Programa (tipo
de descriptores)
(Brito‐Sánchez et
al., 2015)
369a
67.02
RLM
Dragon 116b
Este trabajo
420a
86.58
RLM
TOMOCOMD-
CARDD
140b
a serie de entrenamiento, b serie de predicción, * todas las variables están expresadas como
porciento (%).
Al realizar este estudio comparativo sobre la capacidad de atravesar la BHE donde se trabaja
con la misma base de datos de 579 moléculas cabe señalar la importancia y la superioridad
de los modelos reportados en este trabajo debido a la simplicidad de los estudio de RLM que
son fáciles de generar y consumen un periodo de tiempo relativamente pequeño. Además, se
encuentran reportados en una tabla comparativa en el anexo 6 varios trabajos que modelan la
capacidad de atravesar la BHE donde utilizan otras bases de datos con menor cantidad de
moléculas y los programas para el cálculo de los DMs y los utilizados para la generación de
los modelos son diferentes; donde también se puede apreciar la superioridad de los modelos
obtenidos en este trabajo.
CONCLUSIONES:
1. Se desarrollaron satisfactoriamente cálculos usando GDI para codificar
numéricamente el conjunto químico de 579 moléculas orgánicas.
2. Los mejores modelos de regresión lineal encontrados entre las estructuras y sus
respectivas actividades de atravesar la BHE sugiere que entre dichos parámetros
existe una relación lineal explícita, manifestando que es interesante su utilización en
estudios posteriores la aplicación de estos modelos obtenidos.
3. Se encontraron relaciones de regresión no lineal entre las moléculas y su actividad
biológica usando GDIs como estrategia de codificación de las estructuras químicas.
RECOMENDACIONES:
1. Involucrar en posteriores estudios el cálculo de nuevas familias de DMs con el fin
de tratar de recopilar la mayor cantidad de información posible de las estructuras
químicas de las 579 moléculas concebidas en nuestra data de trabajo.
2. Continuar en la generación y optimización de modelos capaces de predecir la
capacidad de atravesar la BHE con el objetivo de utilizar estos modelos en
posteriores estudios de cribado virtual.
3. Realizar un estudio de cribado virtual con los mejores modelos reportados en este
trabajo con la finalidad de encontrar moléculas con una alta posibilidad de atravesar
la BHE.
REFERENCIAS BIBLIOGRÁFICAS:
ABBOTT, N. J., PATABENDIGE, A. A., DOLMAN, D. E., YUSOF, S. R. & BEGLEY, D.
J. 2010a. Structure and function of the blood-brain barrier Neurobiol. Discov., 37, 13-25.
ABBOTT, N. J., PATABENDIGE, A. A., DOLMAN, D. E., YUSOF, S. R. & BEGLEY, D.
J. 2010b. Structure and function of the blood–brain barrier. Neurobiology of disease, 37, 13-25.
ABDI, H. & WILLIAMS, L. J. 2010. Principal component analysis. Wiley interdisciplinary reviews: computational statistics, 2, 433-459.
ABET, J. E., GONZÁLEZ, G., CARRIZO, B. R. & CORSO, C. L. Estudio de fallos en el
mantenimiento relacionando base de datos y fiabilidad. XIV Workshop de Investigadores en Ciencias de la Computación, 2012.
ABRAHAM, M. H. & HERSEY, A. 2006. In silico models to predict brain uptake. In: TAYLOR, J. B. & TRIGGLE, D. J. (eds.) Comprehensive Medicinal Chemistry II. Oxford: Elsevier.
ABRAHAM, M. H., IBRAHIM, A., ZHAO, Y. H. & ACREE JR, W. E. 2006. A data base for partition of volatile organic compounds and drugs from blood/ plasma/serum to
brain, and an LFER analysis of the data. J. Pharm. Sci, 95, 2091-2100. ABREU, M., FARMAC, C., GOYA, E., TUTORES, J. & BARIGYE, S. J. 2015. Exergo. ADENOT, M. & LAHANA, R. 2004. Blood-brain barrier permeation models: discriminating
between potential CNS and non-CNS drugs including P-glycoprotein substrates. Journal of chemical information and computer sciences, 44, 239-248.
ALBRECHT, B. K., BERRY, V., BOEZIO, A. A., CAO, L., CLARKIN, K., GUO, W., HARMANGE, J.-C., HIERL, M., HUANG, L. & JANOSKY, B. 2008. Discovery and optimization of substituted piperidines as potent, selective, CNS-penetrant α4β2
nicotinic acetylcholine receptor potentiators. Bioorganic & medicinal chemistry letters, 18, 5209-5212.
ALEXANDER, A. J. 2006. Obituary notice for Alexander Crum Brown [Online]. Theory of Chemical Combination. [Accessed].
ALZINA, R. B. 1989. Introduccion conceptual al análisis multivariable. Un enfoque
informatico con los paquetes SPSS-X, BMDP, LISREL Y SPAD. PPU, SA: Barcelona.
ARTHUR M. BUTT, H. C. J., AND N. ABBOTT 1990. Electrical resistance across the blood-brain barrier in anaesthetized rats. Journal of Physiology, 47-62.
ASSEF, D. V. J. C. 2000. Los Antimicrobianos en la práctica medica.
BARIGYE, S. J., MARRERO-PONCE, Y., LÓPEZ, Y. M., SANTIAGO, O. M., TORRENS, F., DOMENECH, R. G. & GALVEZ, J. 2013a. Event-based criteria in GT-STAF
information indices: theory, exploratory diversity analysis and QSPR applications. SAR and QSAR in Environmental Research, 24, 3-34.
BARIGYE, S. J., MARRERO-PONCE, Y., MARTÍNEZ-LÓPEZ, Y., ARTILES
MARTÍNEZ, L. M., PINO-URIAS, R. W., MARTÍNEZ-SANTIAGO, O. & TORRENS, F. 2013b. Relations Frequency Hypermatrices in Mutual, Conditional
and Joint Entropy-Based Information Indices. J Comput. Chem., 34, 259-274.
BARIGYE, S. J., MARRERO-PONCE, Y., PÉREZ-GIMÉNEZ, F. & BONCHEV, D. 2014. Trends in Information Theory Based Chemical Structure Codification. Mol. Divers., 1-14.
BARYSZ, M., JASHARY, G., LALL, R. S., SRIVASTAVA, V. K. & TRINAJSTIC, N. 1983. On the Matrix of Molecules Containing Heteroatoms. In: Chemical
Applications of Topology and Graph Theory, Amsterdam, Ed: R.B. King, Elsevier. BEGLEY, D. J. 1996. The Blood‐brain Barrier: Principles for Targeting Peptides and Drugs
to the Central Nervous System. Journal of pharmacy and pharmacology, 48, 136-146.
BEGLEY, D. J. B., MICHAEL W. ; KEUTER, JORG 2000. The Blood-Brain Barrier and
Drug Delivery to the CNS, http:/ /www.dekker.com. BOSER, B. E., GUYON, I. M. & VAPNIK, V. N. A training algorithm for optimal margin
classifiers. Proceedings of the fifth annual workshop on Computational learning theory, 1992. ACM, 144-152.
BRERETON, R. G. 1990. Chemometrics, Ellis Horwood, Chichester, UK,.
BRITO‐SÁNCHEZ, Y., MARRERO‐PONCE, Y., BARIGYE, S. J., YABER‐GOENAGA,
I., MORELL PÉREZ, C., LE‐THI‐THU, H. & CHERKASOV, A. 2015. Towards better BBB passage prediction using an extensive and curated data set. Molecular
informatics, 34, 308-330. BROWN, A. C. 1869. 1. On an Application of Mathematics to Chemistry. Proceedings of
the Royal Society of Edinburgh, 6, 89-90. CABRERA, M. A., BERMEJO, M., M., P. & R., R. 2004. TOPS-MODE approach for the
prediction of blood-brain barrier permeation. . J Pharm Sci, 93, 1701-1717.
CLARK, R. D. & FOX, P. C. 2004. Statistical variation in progressive scrambling. J. Comput. Aid. Mol. Des., 18, 563–576.
COCKETT, M. & DOGGETT, G. 2003. Maths for Chemists, Royal Society of Chemistry, Thomas Graham House, Science Park, Milton Road, Cambridge CB4 OWF, UK.
CORTES, C. & VAPNIK, V. 1995. Support-vector networks. Machine learning, 20, 273-
297. CORTES C, V. V. 1995. Support-vector networks. Machine Learning.
CRUM-BROWN, A. & FRASER, T. 1868. On the connection between chemical constitution and physiological action. Part 1. On the physiological action of the ammonium bases, derived from Strychia, Brucia, Thebaia, Codeia, Morphia and Nicotia. Trans. R. Soc.
Edinburgh, 25, 151-203. CHEN, H., WINIWARTER, S., FRIDÉN, M., ANTONSSON, M. & ENGKVIST, O. 2011.
In silico prediction of unbound brain-to-plasma concentration ratio using machine learning algorithms. Journal of Molecular Graphics and Modelling, 29, 985-995.
DANILO, C. 2010. Decision tree algorithm Weka tutorial Machine Learning : brief
summary. DECONINCK, E., ATES, H., CALLEBAUT, N., VAN GYSEGHEM, E. & VANDER
HEYDEN, Y. 2007a. Evaluation of chromatographic descriptors for the prediction of gastro-intestinal absorption of drugs. Journal of Chromatography A, 1138, 190-202.
DECONINCK, E., ZHANG, M. H., COOMANS, D. & VANDER HEYDEN, Y. 2007b.
Evaluation of boosted regression trees (BRTs) and two-step BRT procedures to model and predict blood–brain barrier passage. J. Chemometrics 21, 280-291.
DECONINCK, E., ZHANG, M. H., PETITET, F., DUBUS, E., IJJAALI, I., COOMANS, D. & VANDER HEYDEN, Y. 2008. Boosted regression trees, multivariate adaptive
regression splines and their two-step combinations with multiple linear regression or partial least squares to predict blood–brain barrier passage: A case study. Anal. Chim. Acta., 609, 13-23.
DEVILLERS, J. A. K., W. 1991. Applied Multivariate Analysis in SAR and Environmental Studies, Kluwer Academic Publishers for the European Communities, Dordrecht, The
Netherlands. DRAPER, N. & SMITH, H. 1998. Applied Regression Analysis, New York, John Wiley &
Sons, Inc., .
EFRON, B. 1982. The Jackknife, the Bootstrap and Other Resampling Planes, Philadelphia, PA, Society for Industrial and Applied Mathematics.
EFRON, B. 1987. Better bootstrap confidence intervals. J. Am. Stat. Ass., 82, 171–200. FEHER, M., SOURIAL, E. & SCHMIDT, J. M. 2000. A simple model for the prediction of
blood–brain partitioning. International journal of pharmaceutics, 201, 239-247.
FEHER , M., SOURIAL, E. & SCHMIDT, J. M. 2000. A simple model for the prediction of blood–brain partitioning. Int. J. Pharm., 201, 239-247.
FRANCISCO, T. G. 2009. NEUROCIENCIA La importancia de la barrera hematoencefálica [Online]. Revista de Neurociencia de Sevilla. [Accessed].
FRANK, I. E. A. F., J.H. 1993. A statistical view of some chemometrics regression tools.
Technometrics, 35, 109–135. FRANK, I. E. A. T., R. 1994. The Data Analysis Handbook , Elsevier, Amsterdam, The
Netherlands. FRIDÉN, M., WINIWARTER, S., JERNDAL, G., BENGTSSON, O., WAN, H.,
BREDBERG, U., HAMMARLUND-UDENAES, M. & ANTONSSON, M. 2009.
Structure− brain exposure relationships in rat and human using a novel data set of unbound drug concentrations in brain interstitial and cerebrospinal fluids. Journal of medicinal chemistry, 52, 6233-6243.
FU, X.-C., WANG, G.-P., SHAN, H.-L., LIANG, W.-Q. & GAO, J.-Q. 2008a. Predicting blood–brain barrier penetration from molecular weight and number of polar atoms.
European Journal of Pharmaceutics and Biopharmaceutics, 70, 462-466. FU, X.-C., WANG, G.-P., SHAN, H.-L., WEN-QUAN LIANG C & GAO, J.-Q. 2008b.
Predicting blood–brain barrier penetration from molecular weight and number of
polar atoms. Eur. J. Pharm. Biopharm., 70 462–466. GARBERG, P., BALL, M., BORG, N., CECCHELLI, R., FENART, L., HURST, R.,
LINDMARK, T., MABONDZO, A., NILSSON, J. & RAUB, T. 2005. In vitro models for the blood–brain barrier. Toxicology in vitro, 19, 299-334.
GARG, P. & VERMA, J. 2006. In silico prediction of blood brain barrier permeability: an
artificial neural network model. Journal of chemical information and modeling, 46, 289-297.
GODDEN, J. W. & BAJORATH, J. 2000. Shannon entropy: a novel concept in molecular descriptor and diversity analysis. . J. Mol. Graph. Model., 18, 73-76.
GODDEN, J. W. & BAJORATH, J. 2002. Chemical descriptors with distinct levels of
information content and varying sensitivity to differences between selected compound databases identified by SE-DSE analysis. J. Chem. Inf. Comput. Sci., 42,
87–93. GODDEN, J. W. & BAJORATH, J. 2003. An informationtheoretic approach to descriptor
selection for database profiling and QSAR modeling. QSAR Comb. Sci., 22, 487–497.
GODDEN, J. W., STAHURA, F. L. & BAJORATH, J. 2000. Variability of molecular descriptors in compound databases revealed by Shannon entropy calculations. J.Chem. Inf.Comput. Sci., 40, 796–800.
GOLBRAIKH, A., BONCHEV, D. & TROPSHA, A. J. 2001. Chem Inf Comput Sci. 41, 147.
GOLDBERG, D. 1989. Genetics Algorithms in Search, Optimization and Machine Learning. Addison Wesley.
GONZALEZ DIAZ, H., OLAZABAL, E., CASTANEDO, N., SANCHEZ, I. H.,
MORALES, A., SERRANO, H. S., GONZALEZ, J. & DE ARMAS, R. R. J. 2002. Mol Model (Online). 8, 237.
GOODWIN, J. T. & CLARK, D. E. 2005. In silico predictions of blood-brain barrier penetration: considerations to “keep in mind”. Journal of Pharmacology and Experimental Therapeutics, 315, 477-483.
GORBÁTOV, V. A. 1988. Fundamentos de la Matemática Discreta, Moscú, URSS: Mir. GRAMATICA, P. & PAPA, E. 2005. An update of the BCF QSAR model based on
theoretical molecular descriptors. Molecular Informatics, 24, 953-960. GUHA, R., SERRA, J. R. & JURS, P. C. 2004. Generation of QSAR sets with a self-
organizing map. Journal of Molecular Graphics and Modelling, 23, 1-14.
HAIR, J. F., ANDERSON, R. E., TATHAM, R. L. & BLACK, W. C. 1999. Análisis Multivariante 5ta Ed, Madrid.
HALL, M., FRANK, E., HOLMES, G., PFAHRINGER, B., REUTEMANN, P. & WITTEN, I. H. 2009. The WEKA data mining software: an update. ACM SIGKDD explorations newsletter, 11, 10-18.
HEARST MA, D. S., OSMAN E, PLATT J, SCHOLKOPF B 1998. Support vector machines. Intelligent Systems and their Applications, IEEE. 18-28.
HOU, T. & XU, X. 2002 ADME evaluation in drug discovery. J Mol Model, 8, 337-349.
IVANCIUC, O. 2000. Rev. Roum. Chim., 45, 289. JURGEN MENSCH, J. O., CLAIRE MACKIE, PATRICK AUGUSTIJNS 2009. In Vivo, In
Vitro andIn SilicoMethods for Small
Molecule Transfer Across the BBB. REVIEWS, 40.
JURS, P. C., DIXON, J. S. & EGOLF, L. M. 1995. Representations of molecules, in Chemometrics Methods in Molecular Design, New York, VCH Publishers.
KALMEGH, S. 2015. Analysis of WEKA Data Mining Algorithm REPTree , Simple Cart and RandomTree for Classification of Indian News. 2, 438-446.
KEERTHI, S. S., BHATTACHARYYA, C. & MURTHY, K. R. K. 2001. Improvements to
Platt ’ s SMO Algorithm for SVM Classifier Design. 649, 637-649. KIER, L. B. & HALL, L. H. 1997. The E-State as an Extended Free Valence. 2338, 548-552.
KONOVALOV, D. A., COOMANS, D., DECONINCK, E. & HEYDEN, Y. V. 2007. Benchmarking of QSAR models for blood-brain barrier permeation. J Chem Inf Model, 47, 1648-1656.
KONOVALOV, D. A., SIM, N., E., D., V., H. Y. & D., C. 2008. Statistical confidence for variable selection in QSAR models via Monte Carlo Cross-Validation. J. Chem. Inf.
Model. , 48, 370-383. KORTAGERE, S., CHEKMAREV, D., WELSH, W. J. & EKINS, S. 2008. New predictive
models for blood–brain barrier permeability of drug-like molecules. Pharmaceutical
research, 25, 1836.
KORTAGERE, S., CHEKMAREV, D., WELSH, W. J. & S., E. 2008 New predictive models for blood–brain barrier permeability of drug-like molecules. Pharm Res 25.
LANEVSKIJ, K., DAPKUNAS, J., JUSKA, L., JAPERTAS, P. & DIDZIAPETRIS, R.
2011. QSAR analysis of blood–brain distribution: The influence of plasma and brain tissue binding. Journal of pharmaceutical sciences, 100, 2147-2160.
LANEVSKIJ, K., JAPERTAS, P., DIDZIAPETRIS, R. & PETRAUSKAS, A. 2009. Ionization‐specific prediction of blood–brain permeability. Journal of
pharmaceutical sciences, 98, 122-134. LEARDI, R. 1994. Application of genetic algorithms to feature selection under full validation
conditions and to outlier detection. J. Chemom., 8, 65–79.
LEARDI, R. 2001. Genetic algorithms in chemometrics and chemistry: a review. J. Chemom., 15, 559–569.
LEARDI, R., BOGGIA, R. & TERRILE, M. 1992. Genetic algorithms as a strategy for feature selection. J. Chemom., 6, 267–281.
LIU, F., LIANG, Y. & CAO, C. 2006. QSPR modeling of thermal conductivity detection
response factors for diverse organic compound. Chemometrics and Intelligent Laboratory Systems, 81, 120-126.
LIU, X., TU, M., KELLY, R. S., CHEN, C. & SMITH, B. J. 2004. Development of a computational approach to predict blood-brain barrier permeability. Drug metabolism and disposition, 32, 132-139.
LUCO, J. M. 1999. Prediction of the brain-blood distribution of a large set of drugs from structurally derived descriptors using partial least squares (PLS) modeling. J Chem
Inf Comput Sci 39, 396-404. MARRERO-PONCE, Y., CASTILLO-GARIT, J. A., OLAZABAL, E., SERRANO, H. S.,
MORALES, A., CASTAÑEDO, N., IBARRA-VELARDE, F., HUESCA-
GUILLEN, A., JORGE, E. & DEL VALLE, A. 2004. TOMOCOMD-CARDD, a novel approach for computer-aided ‘rational’drug design: I. Theoretical and
experimental assessment of a promising method for computational screening and in silico design of new anthelmintic compounds. Journal of computer-aided molecular design, 18, 615-634.
MAURI, A., CONSONNI, V., PAVAN, M. & TODESCHINI, R. 2006. Dragon software: An easy approach to molecular descriptor calculations. Match, 56, 237-248.
MENSCH, J., OYARZABAL, J., MACKIE, C. & AUGUSTIJNS, P. 2009. In vivo, in vitro and in silico methods for small molecule transfer across the BBB. Journal of pharmaceutical sciences, 98, 4429-4468.
MUEHLBACHER, M., SPITZER, G. M., LIEDL, K. R. & KORNHUBER, J. 2011. Qualitative prediction of blood–brain barrier permeability on a large and refined
dataset. Journal of computer-aided molecular design, 25, 1095-1106. NARAYANAN, R. & GUNTURI, S. B. 2005a. In-silico ADME modelling: Prediction
models for blood-brain barrier permeation using a systematic variable selection
method Bioorg Med Chem 13, 3017-3028. NARAYANAN, R. & GUNTURI, S. B. 2005b. In silico ADME modelling: prediction
models for blood–brain barrier permeation using a systematic variable selection method. Bioorganic & medicinal chemistry, 13, 3017-3028.
NORUSIS, M. J. 1985. Advanced Statistics Guide. SPSS-X. McGraw-Hill: New York.
OBREZANOVA, O., CSÁNYI, G., GOLA, J. M. R. & SEGALL, M. D. 2007. Gaussian processes: A method for automatic QSAR modeling of ADME properties. J. Chem. Inf. Model. , 47, 1847-1857.
PARDRIDGE, W. M. 2004. Log (BB), PS products and in silico models of drug brain penetration. Drug discovery today, 9, 392-393.
PASCUAL, J. G., GONZÁLEZ, F. L., PRIETO, R. A., CERDAN, S. & RODA, J. 2004. Blood brain barrier: development of a structure which supports the functional heterogeneity of the central nervous system. Revista de neurologia, 38, 565-581.
PERES-NETO, P. R., JACKSON, D. A. & SOMERS, K. M. 2005. How many principal components? Stopping rules for determining the number of non-trivial axes revisited.
Computational Statistics & Data Analysis, 49, 974-997. PYKA, A. & PLANAR., J. 1993. Chromatogr. Mod. TLC. RITZÉN, A., SINDET, R., HENTZER, M., SVENDSEN, N., BRODBECK, R. M. &
BUNDGAARD, C. 2009. Discovery of a potent and brain penetrant mGluR5 positive allosteric modulator. Bioorganic & medicinal chemistry letters, 19, 3275-3278.
RODA, J. M. P.-G. F. G.-L. R. P.-A. S. C. J. M. 2004. La barrera hematoencefálica: desarrollo de una estructura que
permite la heterogeneidad funcional del sistema nervioso central. REVISTA DE NEUROLOGÍA, 17.
RÜCKER, C., RÜCKER, G. & MERINGER, M. 2007. y-randomization and its variants in
QSPR/QSAR. J. Chem. Inf. Model., 47, 2345–2357. RUMELHART, D. E., HINTON, G. E. & WILLIAMS, R. 1986. J. Nature, 323, 533.
SANTIAGO, O. M. 2015. Índices de Derivada Discreta de Grafos Índices de Derivada Moleculares Discreta de Grafos.
SANTIAGO VILAR, M. C., STEFANO COSTANZI 2010. Prediction of passive blood–
brain partitioning: Straightforward and effective
classification models based onin silicoderived physicochemical descriptors. Journal of Molecular Graphics and Modelling, 5.
SCH, B. & SMOLA, A. 2002. Support Vector Machines and Kernel Algorithms. 1-22.
SHAO, J. 1993. J. Amer. Stat. Assoc. , 88, 486. SHEN, J., DU, Y., ZHAO, Y., LIU, G. & TANG, Y. 2008a. In silico prediction of blood–
brain partitioning using a chemometric method called genetic algorithm based variable selection. Molecular Informatics, 27, 704-717.
SHEN, J., DU, Y., ZHAO, Y., LIU, G. & TANG, Y. 2008b. In Silico Prediction of Blood –
Brain Partitioning Using a Chemometric Method Called Genetic Algorithm Based Variable Selection. QSAR Comb. Sci. , 27, 704 - 717.
SHEVADE, S. K., KEERTHI, S.S, BHATTACHARYYA, C., MURTHY, K, R, K 1999. Improvements to SMO Algorithm for SVM Regression.
STANTON, D. T., E., M. B., KNITTEL, J. J. & JURS, P. C. 2004. Development and use of
hydrophobic surface area (HSA) descriptors for computer-assisted quantitative structure-activity and structure-property relationship studies. J Chem Inf Comput Sci,
44, 1010–1023. STONE, M. 1974. J. Roy. Stat. Soc., 36, 111. TESTA, B. & KIER, L. B. 1991a. The concept of molecular structure in structure–activity
relationship studies and drug design. Med. Res. Rev., 11, 35-48.
TESTA, B. & KIER, L. B. 1991b. The concept of molecular structure in structure–activity relationship studies and drug design. Medicinal research reviews, 11, 35-48.
TODESCHINI, R. Molecular Descriptors for Volumes I & II.
TODESCHINI, R. & CONSONNI, V. 2008. Handbook of molecular descriptors, John Wiley & Sons.
TROPSHA, A., GRAMATICA, P. & GOMBAR, V. K. 2003. QSAR Comb. Sci., 22, 69. USANSKY, H. H. & SINKO, P. J. 2003. Computation of log BB values for compounds
transported through carrier-mediated mechanisms using in vitro permeability data
from brain microvessel endothelial cell (BMEC) monolayers. Pharmaceutical research, 20, 390-396.
VAN DE WATERBEEMD, H. 1995. Chemometric Methods in Molecular Design (Methods and Principles in Medicinal Chemistry). John Wiley & Sons: New York.
VAPNIK, V. 1995. The Nature of Statistical Learning Theory. Springer: New York, USA.
VAPNIK, V. N. 1999. An overview of statistical learning theory. IEEE transactions on neural networks, 10, 988-999.
VIII, C. Descriptors for Chemical Compounds. WEHRENS, R., PUTTER, H. & BUYDENS, L. 2000. The bootstrap: a tutorial. Chemom.
Intell. Lab. Syst., 54, 35–52.
WICHMANN, K., DIEDENHOFEN, M. & KLAMT, A. 2007. Prediction of Blood-Brain Partitioning and Human Serum Albumin Binding Based on COSMO-RS ó-Moments.
J. Chem. Inf. Model. , 47, 228-233. WOLD, S. 1978. Technometrics. 20, 397. WOLD, S. & ERIKSON, L. 1995. In Chemometric Methods in Molecular Design. van de
Waterbeemd, H., Ed.; VCH Publishers: Weinheim, Germany. YOAN BRITO-SÁNCHEZ, A., B YOVANI MARRERO-PONCE,A,B,C* STEPHEN J.
BARIGYE,A HUONG LE-THI-THUE AND ARTEM CHERKASOVB 2015.
Towards Better BBB Passage Prediction Using an Extensive and Curated Data Set. 46.
ZERARA, M., BRICKMANN, J., KRETSCHMER, R. & EXNER, T. E. 2009. Parameterization of an empirical model for the prediction of n-octanol, alkane and cyclohexane/water as well as brain/blood partition coefficients. Journal of computer-
aided molecular design, 23, 105-111. ZHANG, L., ZHU, H., OPREA, T. I., GOLBRAIKH, A. & TROPSHA, A. 2008. QSAR
Modeling of the Blood–Brain Barrier Permeability for Diverse Organic Compounds. Pharm Res, 25, 1902-1914.
ZHANG, Y.-H., XIA, Z.-N., QIN, L.-T. & LIU, S.-S. 2010a. Prediction of blood–brain
partitioning: A model based on molecular electronegativity distance vector descriptors. Journal of Molecular Graphics and Modelling, 29, 214-220.
ZHANG, Y. H., XIA, Z. N., QIN, L. T. & LIU, S. S. 2010b. Prediction of blood-brain partitioning: A model based on molecular electronegativity distance vector descriptors. Journal of Molecular Graphics and Modelling.
ZHAO, Y. H., ABRAHAM, M. H., IBRAHIM, A., FISH, P. V., COLE, S., LEWIS, M. L., DE GROOT, M. J. & REYNOLDS, D. P. 2007. Predicting penetration across the
blood-brain barrier from simple descriptors and fragmentation schemes. Journal of chemical information and modeling, 47, 170-175.
Anexos:
Anexo 1.
Anexos 2. Base de datos (moléculas/log BBB)(Yoan Brito-Sánchez, 2015):
Number Name log BBB
1ICI17148 (SKB2) (guanidine-n-25-methyl-thiazol-2-yl) (CDS1 000170)-0.04
2 icotidine -2
3 SKF93319 -1.3
4 lupitidine -1.06
5BBcpd10 (CHEBI: 163710) (Y-G12)-1.17
6BBcpd11 (cimetidine analog) (Y-G13)-2.15
7BBcpd12 (cimetidine derivative) (SKB15)-0.67
8BBcpd13 (cimetidine derivative)-0.66
9BBcpd14 (cimetidine derivative)-0.12
Anexo 3. Moléculas consideradas como outliers:
Nombre ComúnNombre IUPACFormula Molecular Estructura log BBB
Mivacuriumbis[3-[(1R)-6,7-dimethoxy-2-methyl-1-[(3,4,5-trimethoxyphenyl)methyl]-3,4-dihydro-1H-isoquinolin-2-ium-2-yl]propyl] (E)-oct-4-enedioateC58H80N2O14+2 -21,62
Doxacurium chloridebis[3-[6,7,8-trimethoxy-2-methyl-1-[(3,4,5-trimethoxyphenyl)methyl]-3,4-dihydro-1H-isoquinolin-2-ium-2-yl]propyl] butanedioate;dichlorideC56H78Cl2N2O16 -22,25
Anexo 4. Serie de entrenamiento (trainig data) y serie de predicción (tes data):
No Nombre Ubicasión Y Exp. Y-Calc Y-Pred Err.Calc.
1 ICI17148 (SKB2) (guanidine-n-25-methyl-thiazol-2-yl) (CDS1 000170)Test -0.04 - -0.60 -
2 icotidine Training -2.00 -1.02 -0.98 0.98
3 SKF93319 Training -1.30 -0.92 -0.90 0.38
4 lupitidine Test -1.06 - -1.17 -
5 BBcpd10 (CHEBI: 163710) (Y-G12)Test -1.17 - -0.81 -
6 BBcpd11 (cimetidine analog) (Y-G13)Training -2.15 -0.82 -0.78 1.33 *
7 BBcpd12 (cimetidine derivative) (SKB15)Training -0.67 -0.66 -0.66 0.01
8 BBcpd13 (cimetidine derivative)Training -0.66 -0.64 -0.64 0.02
9 BBcpd14 (cimetidine derivative)Test -0.12 - -0.78 -
Anexo 5. Peso de los DMs sobre el modelo de regresión no lineal:
SMOreg
weights
- 0.0169 * (normalized) DfIn-T-ESA-HTA
- 0.1223 * (normalized) DfIn-S-AC8P3-HTA
+ 0.0768 * (normalized) DfIn-S-GITN3-HTA
+ 0.0248 * (normalized) DfIn-S-TS3MX-HTA
- 0.0278 * (normalized) DfIn-V3-GITN2-HTA
+ 0.0373 * (normalized) DfIn-V7-DE-HTA
+ 0.0117 * (normalized) TfIn-T-AC5Q1-HTA
- 0.0069 * (normalized) TfIn-T-GI2P2-HTA
Anexo 6. Sumario de modelos de correlación y bases de datos para comparacion:
Estudio N r2 q2 RMSE Método
Luco, J. M.(Luco,
1999)
58a
12b
25
0.92
0.92
0.79
0.87
0.40
0.54
0.79
PLS
Feher et al.(Feher et
al., 2000)
61a
12b
25b
0.85
0.97
0.76
0.83
0.42
0.24
0.52
PCR
Hou, T.&Xu, X.(Hou
and Xu, 2002 )
57a
12b
23b
0.93
0.94
0.80
0.89
0.35
0.31
0.52
MLR
Stanton, D.T.(Stanton
et al., 2004) 47 0.78 0.77 PLS
Cabrera, M.
A.(Cabrera et al.,
2004.)
114a
28b
0.84
0.65 0.43
0.33 (MAE) MLR
Narayanan &
Gunturi(Narayanan
and Gunturi, 2005a)
88a 0.86 0.85 0.39 (SE) VSMP
Abraham, M.
H(Abraham et al.,
2006)
302a 0.75 0.30 (s) MLR
Wichmann,
K.(Wichmann et al.,
2007)
103a 0.71 0.68 0.40 MLR
Konovalov, D.
A(Konovalov et al.,
2007)
291a 0.75 0.73 0.30 (s) kNN-MLR
Obrezanova,
O.(Obrezanova et al.,
2007)
85a
21b
0.59a
0.73b 0.52
0.40 PLS
0.61a 0.50 GP-Basic
0.74b 0.39
0.61a
0.74b 0.50
0.39
GP-FVS
0.66a
0.77b 0.47
0.36 GP-Opt
0.69a
0.81b 0.44
0.34
GP-Nest
Deconinck et
al.(Deconinck et al.,
2007b)
183a
61b
0.82a
0.71b
0.88a
0.72b
0.90a
0.90b
0.82a
0.80b
0.83a
0.80b
0.34
0.53
0.32
0.48
0.26
0.46
0.39
0.41
0.37
0.41
BRT
MLR
MLR–BRT
PLS
PLS–BRT
Konovalov, D.
A(Konovalov et al.,
2008)
289a 0.57 0.39 (SE) MCCV& MLR
Shen,J. et al.(Shen et
al., 2008b) 151a 0.85 0.82 GAVS&Dragon
28b 0.84
Fu, X.-C. et al.(Fu et
al., 2008b) 86a 0.74 0.71 0.37 (s) MRL
25b 0.53
Zhang, L.(Zhang et al.,
2008) 144a 0.92 0.18 kNN-Dragon
0.86 0.27 SVM-Dragon
0.75 0.31 kNN-MOE
0.82 0.24 SVM-MOE
0.95 0.15 kNN-MolConnZ
0.87 0.25 SVM-MolConnZ
Kortagere,S.(Kortagere
et al., 2008 ) 78a 0.70 MRL-MOE
100b 0.65
Deconinck,
E.(Deconinck et al.,
2008)
224a
75b
0.85a
0.54b 0.52
0.68
BRT
0.88a
0.24b 0.41
1.09
MARS
0.67a
0.51b 0.62
0.71
Stepwise-MRL
aTraining Set. bTest Set. cAcordingly to ref Abraham 143 set. a+Acordingly to ref combined original training set
and the Abraham 143 set. eIn house training set(not available). fIn house test set (not available). PLS:
Partialleast-squares, PCR: principle component regression, VSMP: Variable Selection and Modeling method,
SE: Standard error, MCCV: Monte Carlo cross-validation, GAVS: Genetic Algorithm Based Variable
Selection, BRT: Boosted regression trees, MARS: Multivariate adaptive regression splines, GP-Nest:Gaussian
Process Nested Sampling, PLSR: Partial least squares regression, SVM: support vector machine, NLSMP:
Nonlinear least-squares minimization procedure.