Predicción de toxicidad acuática de compuestos orgánicos ...
Transcript of Predicción de toxicidad acuática de compuestos orgánicos ...
2009
Predicción de toxicidad acuática de compuestos orgánicos sobre Poecilia reticulata.
Aguas profundas son las palabras de la boca del hombre, y arroyo que rebosa, la fuente de la sabiduría.
Prov: 18.4
A mis padres por traerme al mundo y luego enseñarme a vivir, por mostrarme
el camino con su infinito amor, y al resto de mi familia, especialmente a mis abuelos.
A mi novia por no faltar a su promesa de amarme en las buenas y en las malas y por
brindarme su apoyo incondicional cada día de mi vida.
Y a todas aquellas personas que de una forma u otra me han ayudado en la vida.
“La gratitud es el mas legitimo pago al esfuerzo ajeno y es reconocer que todo lo que
somos es el resultado del sudor de los demás….”
Mis más sinceros agradecimientos para todas aquellas personas que de una manera u otra
me han ayudado a culminar exitosamente mis estudios y este trabajo.
Quisiera agradecer especialmente a mi familia y a mi novia por confiar en mí y por todo el
apoyo y el amor que me han brindado durante todo el transcurso de mi carrera.
A mi tutor J. Alberto por su apoyo, ánimo y dirección durante el desarrollo de este trabajo.
Al Grupo de Diseño de Fármacos, por su atención y toda la ayuda que me ha brindado
para el desarrollo de esta tesis.
A mis compañeros de aula especialmente a Leyanis y Oremia por estar conmigo en los
momentos buenos y malos durante estos cinco años de mi vida estudiantil.
A todos muchas gracias.
ABSTRACT
The main aim of the study was to develop quantitative structure-toxicity relationship
(QSTR) models for the prediction of aquatic toxicity using atom-based non-stochastic
and stochastic quadratic indices. The used dataset consist of 300 organic compounds,
separated into training and test sets, for which toxicity data to the fresh water fish
Poecilia Reticulata (guppy) were available. Using multiple linear regression, two
statistically significant QSTR models were obtained with non-stochastic (R2 = 0.807 and
s = 0.649) and stochastic (R2 = 0.808 and s = 0.636) quadratic indices. A leave-group-out
(LGO) cross-validation procedure was carried out achieving values of q2 = 0.789 (scv =
0.667) and q2 = 0.791 (scv = 0.652) for each model, respectively. In addition, an external
validation test set was performed, which yields significant values of R2pred of 0.836 and
0.801, correspondingly. The non-stochastic and stochastic quadratic indices appear to
provide an interesting alternative to costly and time-consuming experiments for
determining toxicity. Finally, the QSTR models developed in this work were used to
predict the ecotoxicological risk of several organics compound of interest.
RESUMEN
El objetivo fundamental de este estudio fue desarrollar relaciones cuantitativas estructura-
toxicidad (QSTR) para la predicción de la toxicidad acuática utilizando los índices
cuadráticos estocásticos y no estocásticos basados en relaciones de átomos. La bases de
datos recopilada de la bibliografía esta formada por 300 compuestos orgánicos, separada
en serie de entrenamiento y serie de predicción, para los cuales había sido reportado el
valor de toxicidad (Log LC50) acuática sobre el pez Poecilia Reticulata (guppy).
Empleando un análisis de regresión lineal múltiple, dos modelos estadísticamente
significativos, fueron obtenidos con los índices cuadráticos no-estocásticos (R2 = 0.807 y
s = 0.649) y estocásticos (R2 = 0.808 y s = 0.636). Para verificar la robustez y
predictibilidad de los modelos empleamos la técnica de validación cruzada, dejando-
grupo-fuera mostrando valores de q2 = 0.789 (scv = 0.667) y q2 = 0.791 (scv = 0.652) para
cada modelo, respectivamente. Adicionalmente, el poder predictivo del modelo fue
analizado empleando una serie de predicción externa donde se obtuvieron valores
significativos de R2pred de 0.836 y 0.801 para el modelo no-estocastico y estocastico,
respectivamente. Estos resultados nos permiten plantear que índices cuadráticos pueden
ser empleados como alternativa para los ensayos experimentales los cuales son altos
consumidores de tiempo y dinero además de la necesidad de emplear animales de
laboratorio. Finalmente, los modelos desarrollados fueron utilizados para predecir el
potencial ecotoxicológico de un grupo de reactivos de la base de datos de ocioso y
caducos de la Universidad Central de Las Villas.
Yunier Perera Sardiñas−Predicción de la toxicidad acuática de compuestos orgánicos en Poecilia reticulata
INDICE DE CONTENIDOS
Pág.
RESUMEN INDICE GLOSARIO INTRODUCCION .................................................................................................................. 1
Objetivo General ................................................................................................................. 4 Objetivos Específicos ...................................................................................................... 4
1. REVISION BIBLIOGRAFICA ......................................................................................... 5 1.1.1 Características generales, biológicas y reproductivas del Poecilia Reticulata ...... 5 1.1.2 Bioensayos regulatorios e investigativos. Papel de Poecilia Reticulata en la investigación ecotoxicológica.............................................................................................. 6 1.1.3 Estudios QSAR empleando al Poecilia Reticulata como biomarcador. ................. 8 1.2. Índices cuadráticos moleculares no-estocásticos y estocásticos basados en relaciones de átomos. ........................................................................................................ 10 1.3. Métodos Estadísticos (Quimiométricos) en el Diseño Molecular............................ 14
1.3.1. Introducción a los Métodos Quimiométricos en el Diseño Molecular............. 14 1.3.2. Quimiometría. ..................................................................................................... 14 1.3.3 Metodología general empleada en el los estudios QSAR.................................. 14 1.3.4. Regresión lineal múltiple (RLM). ...................................................................... 15 1.3.5. Multicolinealidad entre variables con el uso de RLM. .................................... 17 1.3.6. Compuestos ‘outliers’ y técnicas para la selección de los mismos. ................. 17 1.3.7. Validación estadística de los modelos QSAR. .................................................. 18 1.3.8. Análisis de conglomerados (análisis de clusters). ............................................. 20
1.4. Regulaciones de los Métodos QSAR........................................................................ 20 MATERIALES Y MÉTODO .............................................................................................. 23
2.1 Obtención de la base de datos de toxicidad acuática sobre (Poecilia. Reticulata). 23 2.2 Método Computacional. TOMOCOMD-CARDD software...................................... 23 2.3. Análisis Estadístico de los Datos. Análisis de RLM. ............................................... 25
RESULTADOS Y DISCUSIÓN .......................................................................................... 27 3.1 Obtención de los Modelos en la Predicción de la Toxicidad Acuática. .................. 27 3.2. Cumplimiento de los principios de la OECD. ......................................................... 35 3.3. Empleo de los modelos desarrollados para la predicción del potencial ecotoxicológico de compuestos Ocioso y Caducos de la UCLV. ................................... 39
CONCLUSIONES................................................................................................................. 43 RECOMENDACIONES ...................................................................................................... 44 REFERENCIAS BIBLIOGRÁFICAS................................................................................ 45
GLOSARIO AC: Análisis de conglomerado (del inglés cluster) ADL: Análisis Discriminante Lineal CAS: Servicio de Registro de Compuestos Químicos (por sus siglas en Ingles) LC50: Concentración letal media DA: Dominio de aplicación EHS: División de Medioambiente, Salud y Seguridad (por sus siglas en ingles) EPA: Agencia de Protección del Medioambiente (por sus siglas en Ingles) ETA: Índices topo-químicos extendidos de átomos IT: Indice topológico LGO: validación cruzada dejando-grupo-fuera (leave-group-out) LOO: validación cruzada dejando-uno-fuera (leave-one-out) LSO: validación cruzada dejando-varios-fuera (leave-several-out) MAE: (Mean Absolute Error) MC: Media cuadrática N: Número de compuestos empleados en el modelo OECD: Siglas en ingles de Organización para la Cooperación y el Desarrollo (Organization for Economic Cooperation and Development) QSAR: Quantitative Structure Activity Relationships QSPR: Quantitative Structure Property Relationships QSTR: Quantitative Structure Toxicity Relationships R2: Coeficiente de correlación RLM: Regresión Lineal Múltiple s: Desviación estándar SC: Suma de cuadrados SE: Serie de entrenamiento SP: Serie de predicción TETRATOX: TOMOCOMD: (TOpological MOlecular COMputer Design). VC: Validación cruzada
Yunier Perera Sardiñas−Predicción de la toxicidad acuática de compuestos orgánicos en Poecilia reticulata
INTRODUCCION
Cada año, como el resultado de nuevos procesos biológicos industriales o naturales, nuevos
productos químicos son producidos y/o identificados. Pero no todos estos compuestos son
seguros (1). Por lo que nuestro ambiente acuático está bajo un desafío constante de un gran
numero de contaminantes provenientes de múltiples fuentes, desde aguas residuales de los
hogares, derrames accidentales durante la transportación, las descargas ilegales, hasta
accidentes industriales. Estos desafíos combinados requieren una vigilancia constante de
aquellas entidades responsables de la calidad ambiental actual y la conveniencia del agua
para consumo humano, así como un esfuerzo profundo en la evaluación del riesgo de los
actuales y posibles contaminantes (2).
Estos problemas son objeto de estudio de la ecotoxicología, que es la ciencia que estudia el
destino y los efectos de los contaminantes en los ecosistemas tratando de explicar las causas
y prever los riesgos probables. La ecotoxicología prospectiva evalúa la toxicidad de las
sustancias antes de su producción y uso. La ecotoxicología retrospectiva se ocupa de
confirmar y cuantificar los daños de la sustancia en el ecosistema. El efecto causado por un
tóxico dependerá de su toxicidad inherente (capacidad de causar algún efecto nocivo sobre un
organismo vivo), del grado de exposición, que a su vez dependerá de la cantidad que ingrese,
de cuánto pase a los distintos compartimentos del ecosistema y de su persistencia (3). Los
efectos adversos causados por un agente tóxico pueden presentarse repentinamente, causando
la muerte de algunos organismos, o provocar cambios sutiles que se manifiestan luego de
meses o años. Se debe recordar que un agente químico, dependiendo del nivel de exposición
puede provocar diferentes respuestas en un organismo receptor, o sea determinados niveles
de un agente pueden tener un efecto benéfico o curativo. Sin embargo niveles superiores de
esta misma sustancia pueden provocar efectos adversos e incluso la muerte del receptor (4).
Existen nociones de toxicidad desde mediados del siglo XVI. El médico suizo Paracelso
(1493-1541) escribió “Todas las sustancias son venenosas. No hay nada, que no sea
venenoso. La dosis diferencia un veneno de un remedio” (5). Debido a esta larga historia
podría pensarse que existe disponibilidad de una gran cantidad de datos de toxicidad para su
uso hoy en día, sin embargo nada más lejos de la verdad (6). Cada año se agregan millares de
compuestos al Servicio de Registro de Compuestos Químicos (CAS por sus siglas en Ingles);
por lo que muchas agencias medioambientales están envueltas en esta tarea. De hecho, a
Introducción 2
Yunier Perera Sardiñas−Predicción de la toxicidad acuática de compuestos orgánicos en Poecilia reticulata
finales del 2007 mas de 33 millones de compuestos habían sido registrados en el CAS
(muchos de los cuales son compuestos orgánicos sintéticos) y se estima que su incremento
anual esta entre 500 y 1000 nuevos compuestos cada año (7). Los inventarios de sustancias
industriales realizadas en diferentes países arrojaron como resultado un contenido de
aproximadamente 100.000 sustancias en Europa, 75.000 en Estados Unidos y 23.000 en
Canadá. (8) Estos numerosos contaminantes orgánicos son el resultado directo del uso
creciente de compuestos químicos, como herbicidas, fungicidas, productos del hogar,
pesticidas, solventes industriales entre otros. Muchos de estos productos han sido
denominados como peligro potencial por la Agencia de Protección del Medioambiente (EPA
por sus siglas en Ingles) (9).
Como se planteó anteriormente, el gran reto de la ecotoxicología es determinar o predecir los
efectos adversos de los agentes químicos sobre los organismos y el medio ambiente. Las
regulaciones de seguridad medioambiental exigen que cada nuevo producto que se obtenga,
sea probado cuidadosamente antes de entrar al mercado para verificar cualquier efecto
negativo en el medioambiente (10). Las pruebas experimentales para determinar el efecto de
las sustancias representa la fuente más fiable para obtener dichos datos. Desgraciadamente la
realización de tales análisis requiere de un elevado consumo de recursos materiales y de
tiempo; estos ensayos no permiten evaluar una gran cantidad de compuestos y son poco
prácticos debido al gran número de nuevos compuestos fabricados anualmente.(10) Siendo
necesario conocer el impacto ecotoxicológico de los compuestos hay que buscar nuevas
alternativas a la determinación experimental de propiedades toxicológicas.(11)
En años recientes, los estudios cuantitativos estructura-toxicidad (QSTR por sus siglas en
ingles) han emergido como una herramienta útil en este tipo de estudios; dada las
aplicaciones exitosas de los estudios cuantitativos estructura-actividad (QSAR por sus siglas
en ingles) en otros campos tales como farmacología, química y el diseño racional de
fármacos. La necesidad de procesar muchos datos, donde la mayor parte del tiempo proviene
de diferentes fuentes y no poseen el mismo significado biológico, ha llevado al desarrollo de
muchos modelos sofisticados. Debido a que el ambiente acuático es muy vulnerable a los
contaminantes, se ha dedicado un interés especial a la valoración de la toxicidad acuática.(10)
Los estudios QSAR/QSTR ofrecen las ventajas de una mayor velocidad y de un costo más
bajo, especialmente cuando se compara con los estudios experimentales.
Introducción 3
Yunier Perera Sardiñas−Predicción de la toxicidad acuática de compuestos orgánicos en Poecilia reticulata
Para que un modelo QSAR sea aceptado con fines regulatorios debe cumplir con cinco
principios conocidos como “principios de la OECD (Organización para la Cooperación
Económica y el Desarrollo, por sus siglas en ingles) para la validación de los modelos
cuantitativos de relación estructura-actividad para ser usados con propósitos regulatorios”
(12).
Entre los muchos estudios que utilizan vertebrados como biomarcadores están, el estudio de
mortalidad en peces para Poecilia Reticulata (guppy). En este sentido, un buen número de
estudios se ha desarrollado utilizando como biomarcador al Poecilia Reticulata sin embargo
los mismos han sido desarrollados empleando una amplia gama de compuestos orgánicos que
tienen en común un esqueleto base o determinados fragmentos .por tanto el principal
problema de dichos estudios esta en su limitado alcance ya que solo es valido para algunas
clases de compuestos. El mayor reto sigue estando en poder obtener modelos
QSTR que permitan describir una mayor diversidad estructural simultáneamente.
Recientemente, nuestro grupo ha desarrollado un novedoso método químico-computacional
conocido por sus siglas acrónimas en ingles: TOMOCOMD (TOpological MOlecular
COMputer Design). Este programa permite el cálculo de varias familias de nuevos
descriptores moleculares.(13-17) Las cuales han sido empleadas en varios estudios
QSAR/QSPR obteniendo satisfactorios resultados.(18-27) Este método es muy flexible y
permite el estudio de pequeñas y grandes moléculas tales como proteínas y ácidos
nucleicos.(28-31) Los resultados obtenidos hasta ahora con los descriptores TOMOCOMD-
CARDD nos permiten suponer que pueden ser una herramienta útil para la predicción del
potencial ecotoxicológico de sustancias de interés.
Por todo lo anterior se plantea el siguiente problema científico:
Los modelos QSTR utilizados hasta el momento y que emplean al Poecilia Reticulata como
biomarcador han sido obtenidos a partir de bases de datos limitadas y por tanto no son útiles
para la predicción de la toxicidad de otros compuestos químicos.
Para dar respuesta a la problemática científica nos planteamos la siguiente hipótesis
Si se aplican otros enfoques grafo-teóricos podremos obtener modelos matemáticos a partir
de bases de datos más extensas y que a su vez sean efectivos, sencillos, interpretables y
robustos, de modo que puedan ser utilizados en la predicción del potencial ecotoxicológico
de diferentes sustancias de interés.
Introducción 4
Yunier Perera Sardiñas−Predicción de la toxicidad acuática de compuestos orgánicos en Poecilia reticulata
Para demostrar la anterior hipótesis y dar respuesta a la problemática científica planteado,
se proponen los siguientes objetivos:
Objetivo General
Obtener, utilizando los descriptores TOMOCOMD-CARDD, modelos o sistemas de
cribado computacional capaces de estimar el potencial ecotoxicológico de diferentes
sustancias de interés, tanto su influencia negativa para los seres humanos como para
el medio ambiente
Objetivos Específicos
Coleccionar datos de toxicidad acuática de diferentes compuestos químicos sobre
Poecilia Reticulata, para construir una base de datos propia.
Obtener modelos QSTR utilizando el ensayo de toxicidad aguda al pez Poecilia
Reticulata como biomarcador de la toxicidad acuática de compuestos orgánicos,
empleando un nuevo enfoque computacional.
Validar la calidad estadística y predictiva de los modelos obtenidos, a través de
procesos de validación tanto interna como externa.
Determinar el Dominio de Aplicación de los Modelos
Tamizar los reactivos de la base de datos de productos ociosos y caducos de la UCLV
para ordenarlos según su toxicidad.
Revisión Bibliográfica 5
Yunier Perera Sardiñas−Predicción de la toxicidad acuática de compuestos orgánicos en Poecilia reticulata
1. REVISION BIBLIOGRAFICA
1.1.1 Características generales, biológicas y reproductivas del Poecilia Reticulata
Los guppys (Poecilia reticulata) son pequeños peces tropicales pertenecientes a la familia
Poecilidae, se caracterizan por su afinidad a climas tropicales (32-35), ya que son originarios
de las corrientes costeras del nordeste de Sudamérica. Deben su nombre a Robert John
Lechmere Guppy que los introdujo en el comercio de acuario, es un pez muy popular en el
ámbito acuarístico. Puesto que hoy en día se ha logrado desarrollar una gran cantidad de
variedades que van desde cambios en su coloración hasta su tipo y forma de la cola. Entre las
variedades más comerciales se encuentran: king cobra, flamingo, mitad negro, cabeza de
jade, metálico y multicolor (36). Aunque es originario del Caribe, puede ser encontrado en
forma nativa desde Venezuela y el norte de Brasil hasta México, abarcando Guyana Británica
y Surinam, Trinidad y Tobago y Barbados (37).
Los guppys son sumamente variables tanto fenotípica como genéticamente. Sexualmente los
machos exponen una serie asombrosa de puntos y rayas diferentemente coloreadas, tal que
cada macho casi parece único (Ver Figura 1), haciendo al guppy uno de los vertebrados más
polimorfos conocidos. Aunque las hembras no muestren tal coloración, ellos varían en
términos de sus compañeros preferidos tanto dentro de poblaciones como entre poblaciones,
haciendo al guppy un sistema poderoso para estudiar la selección sexual (38).
En esta especie la reproducción es vivípara, el tiempo de desarrollo usual del embrión dentro
de las hembras va de 25 a 30 días aproximadamente. La duración de este periodo depende de
la temperatura del agua, la nutrición y la edad del pez. El hecho de que las crías se
desarrollen dentro de la madre, proporciona una excelente protección contra peces
depredadores y condiciones adversas del entorno, sin embargo, suele ocurrir canibalismo, ya
que los padres frecuentemente se comen a sus crías. Por esto, debe prepararse el acuario para
separar a los padres de sus crías inmediatamente después de que estas nacen (37).
Los P. reticulata son los peces vivíparos que toleran un ámbito más extremo de
temperatura,ya que viven en aguas que van desde los 16 ºC hasta los 30ºC,siendo la más
adecuada entre 25 y 28ºC. El macho posee una cola muy desarrollada y bien coloreada en
forma triangular la mayoría de las veces, pero su cuerpo es de menor tamaño que el de la
hembra. Por el contrario, la cola de la hembra no es tan grande como la del macho y tiene en
comparación con éste una coloración pobre. Cuando estos peces se encuentran en su etapa
Revisión Bibliográfica 6
Yunier Perera Sardiñas−Predicción de la toxicidad acuática de compuestos orgánicos en Poecilia reticulata
reproductiva la aleta anal del macho sufre una metamorfosis, convirtiéndose en un
gonopodium con el cual fertiliza a la hembra. Por su parte la hembra desarrolla un punto
obscuro arriba de su aleta anal, que indica su madurez (37).
Figure 1. Diversidad fenotípica del Guppy
1.1.2 Bioensayos regulatorios e investigativos. Papel de Poecilia Reticulata en la
investigación ecotoxicológica.
Los bioensayos de toxicidad aguda o crónica permiten evaluar el efecto de una sustancia
química en organismos vivos (39). Las pruebas ecotoxicológicas agudas cuantifican las
concentraciones letales de un xenobiótico sobre una especie en particular de la biota (40).
Los bioensayos de toxicidad, con agentes contaminantes bajo condiciones de laboratorio, se
han incrementado en estos últimos años debido a la brevedad con que se obtiene la
información sobre la concentración letal media (LC50) (en mg o mg L-1) y los efectos
subletales que afectan negativamente a la biota en los ambientes marinos, estuarinos y
dulceacuícolas (39).
Revisión Bibliográfica 7
Yunier Perera Sardiñas−Predicción de la toxicidad acuática de compuestos orgánicos en Poecilia reticulata
Las pruebas ecotoxicológicas con peces son tradicionalmente empleadas en muchas partes
del mundo, ya que éstos juegan un papel importante dentro de la cadena alimenticia (41).
Recientemente, hay una tendencia a usar peces de pequeño tamaño como especies centinela
para investigaciones ecotoxicológicas e investigaciones biomédicas. Los pequeños peces
tienen varias ventajas en estudios de ecotoxicología, ya que ellos son generalmente fáciles
para mantener y de reproducirse en condiciones de laboratorio. El tiempo de generación es
relativamente corto, y el pez puede producir huevos con regularidad, de ahí proporcionando
una variedad de bioensayos (42-45).
Los peces consumen y controlan las poblaciones de insectos, microcrustáceos y algas, y
permiten de esta forma la recirculación, remoción y resuspensión del material orgánico
dentro del ecosistema. Debido a su gran importancia, se han desarrollado una gran variedad
de bioensayos que han empleado especies de peces, que son sensibles a la presencia de
determinados agentes tóxicos. Los peces son organismos acuáticos extremadamente sensibles
a la perturbación ambiental, siendo afectados en su crecimiento y en sus funciones
reproductivas (46). Numerosas especies de peces han sido propuestos como bioindicadores
para evaluar la ecotoxicidad de sustancias químicas contaminantes como: peces cebra (Danio
nuevo Río), pececillo de cabeza gorda (Pimephales promelas), pez del mosquito (Gambusia
affinis), guppy (Poecilia reticulata) y medaka japonés (Oryzias latipes), entre otros son
comúnmente usados como modelos de peces de agua dulce en estudios ecotoxicológicos (47-
52).
Debido a su alta tasa de reproducción y facilidad de mantenimiento, los guppys son un
recurso valioso para la investigación biomédica. Por ejemplo, David Reznick y los colegas
explotan diferencias demográficas en la historia de vida como un modelo para entender las
fuerzas que forman la variación en envejecido, y en nuestro laboratorio estudiamos al
mutante de guppy ‘curveback’ como un modelo hasta ahora único para la escoliosis
idiopática familiar (38). Pero los guppys son también uno de los primeros sistemas modelos
para el estudio de selección sexual, evolución genética, y ecología. Se han realizado diversos
estudios en P. reticulata en el ámbito del aprendizaje y del comportamiento reproductivo
(53-55), así como modificaciones en el comportamiento por acción de pesticidas
organofosforados (56).
Revisión Bibliográfica 8
Yunier Perera Sardiñas−Predicción de la toxicidad acuática de compuestos orgánicos en Poecilia reticulata
1.1.3 Estudios QSAR empleando al Poecilia Reticulata como biomarcador.
Varios estudios QSAR se han desarrollado utilizando el ensayo de letalidad de 96h del
Poecilia Reticulata como biomarcador (57-60). Sin embargo estos estudios en su gran
mayoría tienen un alcance limitado pues parten de bases de datos de series congenéricas o
que tienen un sustituyente común para todos los compuestos. Aquí se trataran de manera
abreviada los estudios más relevantes publicados hasta el momento, comentando los
resultados más sobresalientes, el método empleado así como los descriptores utilizados.
En la segunda mitad de la década de los 90 del pasado siglo Verhaar, Urrestarazu y Hermens
desarrollaron un estudio QSAR para predecir la toxicidad aguda 172 compuestos orgánicos
sobre el pez P. Reticulata empleando la Regresión Lineal Múltiple (RLM) como técnica
estadística. Los modelos obtenidos con cuatro variables significativas arrojaron valores de
R2=0.928 y un q2=0.920 para la validación cruzada. Este estudio inicio en aquel momento
el empleo un nuevo enfoque para entender el mecanismo de toxicidad y encontrar la relación
entre los mecanismos de toxicidad y los parámetros fisicoquímicos de los compuestos (57).
Posteriormente, Katritzky y Tatham en el año 2001 propusieron aplicar el método
CODESSA para la predicción de toxicidad acuática sobre P. reticulata (59). Emplearon una
base datos mas extensa la cual fue dividida por clases, basándose en el mecanismo de acción
toxica, de la siguiente manera: 90 compuestos en la clase 1 definidos como narcóticos no
polares, de la cual se obtuvo un modelo con los siguientes parámetros estadísticos R2=0.955
y s=0.3105, para la clase 2 clasificados como narcóticos polares con una totalidad de 121
compuestos se obtuvo R2=0.918 y s=0.2924 , para la clase 3 (productos químicos reactivos)
conformada por una base de datos de 41 compuestos se obtuvo R2=0.848 y s=0.5596, y para
la 4ta clase definidos como pesticidas con una data de 31 compuestos resulto una R2=0.755 y
una s=0.6569 (59).
Adicionalmente, en el año 2002 Seward, Hamblen y Schultz realizaron un estudio de
comparación de datos de toxicidad entre P. reticulata y Tetrahymena Pyriformis para un
grupo de productos químicos (58). Empleando la base de datos TETRATOX para modelar la
capacidad de T. pyriformis de predecir la toxicidad de una especie diferente, en este caso el
guppy P. reticulata. Para llevar a cabo dicho estudio se empleó una base de datos de 124
compuestos, se desarrollo un análisis de RLM empleando como variable dependiente
logLC50 y el resto como variables independientes. Se identificaron 5 compuestos outliers,
Revisión Bibliográfica 9
Yunier Perera Sardiñas−Predicción de la toxicidad acuática de compuestos orgánicos en Poecilia reticulata
que una vez retirados de la base de datos mejoraron la relación obteniéndose estadísticamente
modelos con un R2 = 0,85 y una s= 0,42 (58).
Mas recientemente, en el año 2004, Roy y Ghosh realizaron un estudio de relación
cuantitativa estructura toxicidad (QSTR) en el campo de la toxicología acuática con el
objetivo de evaluar la seguridad ecológica del pez Poecilia reticulata frente a derivados del
benceno (60). Para ello emplearon una base de datos de 92 compuestos basándose y como
técnica estadística en una RLM; los descriptores empleados en este trabajo fueron los índices
topo-químicos extendidos de átomos (ETA por sus siglas en ingles) aunque también
desarrollaron modelos con otros descriptores topológicos y fisicoquímicos para comparar los
resultados. Los datos fueron pre-procesados utilizando un análisis de componentes
principales para reducir la dimensionalidad e identificar las variables más importantes. El
mejor resultado obtenidos con índices topológicos y fisicoquímicos fueron R2 =0.738, q2=
0.718, s=0.340 mientras que al emplear los descriptores ETA el mejor modelo mostró un
comportamiento superior con R2 =0.885, q2= 0.865, s=0.23; de la comparación se obtuvieron
algunas consideraciones interesantes respecto a la toxicidad de los compuestos en relación a
su estructura química (60).
Por ultimo un estudio realizado en el año 2005 por Hoover, Acree y Abraham en el cual se
desarrollaron modelos para predecir la toxicidad química sobre varias especies de peces
incluía también al P. reticulata (guppy) (1). La base de datos de toxicidad reportada para este
pez es la segunda más grande de las seis especies de peces consideradas en el dicho estudio,
registrándose los valores de LC50 para 148 compuestos. En ese estudio se alcanzaron buenos
resultados para los parámetros estadísticos del mejor modelo QSAR desarrollado en el
mismo, como son una R2=0.946 con una pequeña desviación estándar de aproximadamente
0.28 unidades. Adicionalmente desarrollaron otros modelos empleando fracciones de esta
base de datos alcanzando también buenos resultados (1).
De manera general podemos plantear que a pesar de las limitaciones antes mencionadas, este
tipo de estudios posibilita la predicción de la toxicidad acuática de productos químicos
orgánicos y permite también ayudar en la identificación de compuestos con determinado
modo de acción tóxica como son la reactividad química específica, la narcosis no polar y
polar entre otros
Revisión Bibliográfica 10
Yunier Perera Sardiñas−Predicción de la toxicidad acuática de compuestos orgánicos en Poecilia reticulata
1.2. Índices cuadráticos moleculares no-estocásticos y estocásticos basados en relaciones
de átomos.
Los índices cuadráticos totales, qk(x) han sido previamente definidos en trabajos de nuestro
grupo (14, 17, 20, 61), por lo cual aquí solo se brindara una pequeña reseña de los mismos.
Teniendo en cuanta lo anterior podemos plantear que loa índice cuadráticos basados en
relaciones de átomos se calculan entonces a partir de la ecuación que se muestra a
continuación:
∑∑==
=n
jjiij
kn
ik XXaxq
11)(
(1.1)
donde aij = aji (matriz cuadrada simétrica), n es el número de átomos de la molécula y
X1,…,Xn son las coordenadas del vector molecular (X) en la base canónica qua de Rn. Por
tanto, las coordenadas de X son los valores numéricos de una propiedad atómica que
caracteriza a cada tipo de átomo en la molécula, pues en la base canónica las coordenadas de
cualquier vector coinciden con los componentes del vector (62-68). Los coeficientes kaij son
los elementos aij de la k-ésima potencia de la matriz M del seudografo molecular, la cual es
utilizada como matriz de la forma cuadrática con respecto a la base canónica.
La expresión de qk(x) puede ser escrita como una simple ecuación matricial (14, 17, 20, 61):
[ ]⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡
⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡=
n
k
nnn
n
nk
X
X
aa
aaXXxq M
L
MM
L
L1
1
111
1)( (1.2)
o en una forma matricial más compacta,
qk(x) = [X]t Mk [X] (1.3)
donde [X] es un vector columna (una matriz de nx1) de las coordenadas de X en la base
canonical de ℜ n, [X]t es la transpuesta de [X] (una matriz de 1xn) y Mk es la k-ésima
potencia de M. Como puede apreciarse, los índices cuadráticos totales para una molécula de
n átomos son aplicaciones entre espacios, que transforman al vector molecular en k números,
en correspondencia con las k-ésimas M matrices utilizadas como matrices de la
transformación. Matemáticamente, podemos considerar a los índices cuadráticos como
formas cuadráticas q en x1, x2,…,xn variables (q: Rn → R) que utilizan las k-ésimas matrices
de los pseudografos moleculares (Mk) como matrices de las formas. En la Tabla 1.1
Revisión Bibliográfica 11
Yunier Perera Sardiñas−Predicción de la toxicidad acuática de compuestos orgánicos en Poecilia reticulata
(columna izquierda) se ejemplifica esta representación (M0-M2) para la molécula del 2-
formil-6-metilbenzonitrilo.
Uno de los criterios importantes de la lista de propiedades deseables para un nuevo índice
topológico (IT) es la posibilidad de definir localmente los descriptores (69). Es por ello que
se ha propuesto una definición local de los índices cuadráticos moleculares. La definición de
estos descriptores, invariantes grafo-teóricas para un fragmento FR dado, dentro de un
seudografo específico es la siguiente (14, 17, 20, 61):
∑∑==
=m
jjiijL
km
ikL XXaxq
11)(
(1.4)
donde m es el número de átomos del fragmento de interés y kaijL es el elemento de la fila “i”
y columna “j” de la matriz MkL ≡ Mk(G, FR) [ qkL(x) ≡ qk(x, FR)]. Esta matriz se extrae de la
matriz k-ésima potencia de M y contiene la información referida a los vértices del fragmento
FR de interés y también de su entorno molecular. La matriz MkL = [kaijL] y los elementos kaijL
se definen a continuación: kaijL = kaij si ambos vi y vj son átomos contenidos dentro del fragmente de interés (1.5)
= 1/2 kaij si vi o vj están contenidos en el fragmento de interés pero no ambos
= 0 de otra forma
Nótese que si una molécula se divide en Z fragmentos moleculares, la matriz Mk puede ser
dividida en Z matrices locales MkL, L = 1,...Z y la matriz k-ésima potencia de M es
exactamente la suma de las k-ésima potencia de las Z matrices locales. Utilizando este
enfoque, los índices cuadráticos totales son la suma de los índices cuadráticos locales de los
Z fragmentos:
)()(1
xqxqZ
LkLk ∑
=
= (1.6)
Cada orden de las formas cuadráticas locales tiene un significado particular. Especialmente
para los primeros valores de k, contienen información sobre la estructura del fragmento FR en
sí. Para valores mayores, contiene información sobre el entorno del fragmento FR
considerado dentro del pseudografo molecular (14, 17, 20, 61).
Revisión Bibliográfica 12
Yunier Perera Sardiñas−Predicción de la toxicidad acuática de compuestos orgánicos en Poecilia reticulata
Tabla 1.1. Cálculo de Mk(G) y Sk(G) para la Molécula del 2-formil-6-metilbenzonitrilo Cuando k Varía entre 0 y 2.
N
CHO
CN
CH3
12
34
5
6
7
89 10
11 Estructura Molecular
O1
C2C3
C4
C5
N6
C7
C8
C9
N10
C11 Pseudografo Molecular (G)
aij O1 C2C3 C4 C5 N6 C7 C8 C9 N10 C11 ikδ O1 C2 C3 C4 C5 N6 C7 C8 C9 N10 C11
M0(G) S0(G) O1 1 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 C2 0 1 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 C3 0 0 1 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 C4 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 C5 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 N6 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 C7 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 C8 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 C9 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 1 0 0 N10 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 1 0 C11 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 1
M1(G) S1(G) O1 0 2 0 0 0 0 0 0 0 0 0 2 0 1 0 0 0 0 0 0 0 0 0 C2 2 0 1 0 0 0 0 0 0 0 0 3 0.66 0 0.33 0 0 0 0 0 0 0 0 C3 0 1 1 1 0 0 0 1 0 0 0 4 0 0.25 0.25 0.25 0 0 0 0.25 0 0 0 C4 0 0 1 1 1 0 0 0 0 0 0 3 0 0 0.33 0.33 0.33 0 0 0 0 0 0 C5 0 0 0 1 1 1 0 0 0 0 0 3 0 0 0 0.33 0.33 0.33 0 0 0 0 0 N6 0 0 0 0 1 1 1 0 0 0 0 3 0 0 0 0 0.33 0.33 0.33 0 0 0 0 C7 0 0 0 0 0 1 1 1 0 0 1 4 0 0 0 0 0 0.25 0.25 0.25 0 0 0.25C8 0 0 1 0 0 0 1 1 1 0 0 4 0 0 0.25 0 0 0 0.25 0.25 0.25 0 0 C9 0 0 0 0 0 0 0 1 0 3 0 4 0 0 0 0 0 0 0 0.25 0 0.75 0 N10 0 0 0 0 0 0 0 0 3 0 0 3 0 0 0 0 0 0 0 0 1 0 0 C11 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0
M2(G) S2(G) O1 4 0 2 0 0 0 0 0 0 0 0 6 0.66 0 0.33 0 0 0 0 0 0 0 0 C2 0 5 1 1 0 0 0 1 0 0 0 8 0 0.625 0.125 0.125 0 0 0 0.125 0 0 0 C3 2 1 4 2 1 0 1 2 1 0 0 14 0.143 0.071 0.287 0.143 0.071 0 0.071 0.143 0.071 0 0 C4 0 1 2 3 2 1 0 1 0 0 0 10 0 0.1 0.2 0.3 0.2 0.1 0 0.1 0 0 0 C5 0 0 1 2 3 2 1 0 0 0 0 9 0 0 0.111 0.222 0.333 0.222 0.111 0 0 0 0 N6 0 0 0 1 2 3 2 1 0 0 1 10 0 0 0 0.1 0.2 0.3 0.2 0.1 0 0 0.1 C7 0 0 1 0 1 2 4 2 1 0 1 12 0 0 0.083 0 0.083 0.166 0.333 0.166 0.083 0 0.083C8 0 1 2 1 0 1 2 4 1 3 1 16 0 0.063 0.125 0.063 0 0.063 0.125 0.25 0.063 0.188 0.063C9 0 0 1 0 0 0 1 1 10 0 0 13 0 0 0.077 0 0 0 0.077 0.077 0.769 0 0 N10 0 0 0 0 0 0 0 3 0 9 0 12 0 0 0 0 0 0 0 0.25 0 0.75 0 C11 0 0 0 0 0 1 1 1 0 0 1 4 0 0 0 0 0 0.25 0.25 0.25 0 0 0.25
Revisión Bibliográfica 13
Yunier Perera Sardiñas−Predicción de la toxicidad acuática de compuestos orgánicos en Poecilia reticulata
Los índices cuadráticos atómicos y de átomo-tipo son dos casos específicos de índices
cuadráticos moleculares locales (para FR = átomo y para FR = conjunto de átomos del mismo
tipo, respectivamente). O sea, que los índices cuadráticos átomo-tipo se calculan sumando los
índices cuadráticos de todos los átomos del mismo tipo en la molécula. En este formalismo,
cada átomo en la molécula es clasificado según su tipo, tales como heteroátomos, H-unidos a
heteroátomos, halógenos, átomos de carbonos en cadenas alifáticas, átomos aromáticos
(anillos aromáticos), entre otros.
Adicionalmente los índices cuadráticos estocásticos, sqk(x) presentan las mismas propiedades
descritas para sus homólogos no estocásticos y se derivan de estos. Es decir, los k-ésimos
índices cuadráticos estocásticos totales y locales se calculan según la misma invariante
definida en la ecuación 1.1, pero usando la matriz estocástica de adyacencia entre átomos del
pseudografo molecular, Sk(G), como matriz de la forma cuadrática. Sk(G) puede ser obtenida
directamente de Mk(G). Los elementos ksij se definen como se muestra en la ecuación 5.30:
ik
ijk
ik
ijk
ijk a
SUMa
sδ
== (1.7)
donde kaij son los elementos de la k-ésima potencia de M, y kSUMi es la suma de la fila i-
ésima de Mk o grado del vértice de orden k del átomo i, ikδ . Esta transformación normaliza
cada fila de la matriz original y por tanto, sus k-ésimos elementos constituyen las
probabilidades de transición con las cuales un electrón se mueve de un átomo i a otro j en un
período de tiempo discreto tk.. En la columna derecha de la Tabla 1.1 se muestra, a modo de
ejemplo, las matrices estocásticas de orden 0-2 para la molécula del 2-formil-6-
metilbenzonitrilo. Nótese que los k-ésimos elementos sij toman en consideración la
información de la topología molecular en k pasos a través de todo el esqueleto covalente. Así
por ejemplo, los valores de 2sij pueden distinguir entre las diferentes formas híbridas de cada
átomo. En este sentido, en la Tabla 1.1 (columna derecha) puede observarse que los
electrones tienen una mayor probabilidad de regresar a un átomo de nitrógeno sp [p(N10) =
0.75] que a un átomo de nitrógeno sp2 [p(N6) = 0.33] en t2 (k = 2). Un comportamiento
similar puede observarse entre los diferentes “estados híbridos” de los átomos de carbono en
la molécula 2-formil-6-metilbenzonitrilo (ver Tabla 1.1): Csp3 [p(C11) = 0.25]; Csp2 [p(C2) =
0.625]; Csp2arom [p(C3) = 0.285, p(C4) = 0.3, p(C5) = 0.33, p(C7) = 0.33, p(C8) = 0.25]; y Csp
[p(C9) = 0.769]. Esto es un resultado lógico si tomamos en cuenta las propiedades
Revisión Bibliográfica 14
Yunier Perera Sardiñas−Predicción de la toxicidad acuática de compuestos orgánicos en Poecilia reticulata
electrónicas (por ejemplo su escala de electronegatividad) de cada una de las diferentes
hibridaciones de estos átomos.
1.3. Métodos Estadísticos (Quimiométricos) en el Diseño Molecular
1.3.1. Introducción a los Métodos Quimiométricos en el Diseño Molecular
Los estudios QSAR constituyen un enfoque que permite entender como la variación
estructural afecta la propiedad/actividad biológica de un conjunto de compuestos. En estos
estudios, los descriptores moleculares (X) se correlacionan con una variable respuesta (Y). Es
decir, este análisis puede definirse como una aplicación de métodos matemáticos y
estadísticos al problema de encontrar una ecuación empírica de la forma Yi = fi(X1, X2, ...Xn),
donde Yi son las propiedades y/o actividades biológicas de la molécula, y X1, X2, ...Xn son
propiedades estructurales experimentales o calculadas (descriptores moleculares) de los
compuestos. En este sentido, cada compuesto puede representarse como un punto en un
espacio multidimensional, en los cuales los descriptores X1, X2, ...Xn son coordenadas
independientes del compuesto. El objetivo más usual de este análisis es incrementar el
entendimiento del sistema biológico bajo investigación o predecir la propiedad estudiada a un
objeto (compuesto) no utilizado en la obtención del modelo.
1.3.2. Quimiometría.
El término quimiometría, surgió en la década del 70 y se define como la disciplina química
que utiliza métodos estadísticos y matemáticos para seleccionar y optimizar los métodos
analíticos y preparativos, así como procedimientos para el análisis e interpretación de los
datos (70).
1.3.3 Metodología general empleada en el los estudios QSAR.
Los principios de la metodología QSAR pueden describirse mediante los siguientes pasos
comunes (70): 1) Formulación del problema, se determina el objeto de análisis y el nivel de
información requerido, 2) Parametrización cuantitativa de la estructura molecular de los
compuestos químicos orgánicos/secuencia de biopolímeros, 3) Medición de la propiedad de
interés (‘efectos biológicos’), 4) Escoger el tipo de modelo QSAR que se va a desarrollar, 5)
Selección de los compuestos (diseño estadístico de la serie), 6) Análisis matemático de los
Revisión Bibliográfica 15
Yunier Perera Sardiñas−Predicción de la toxicidad acuática de compuestos orgánicos en Poecilia reticulata
datos y Validación interna y externa de los modelos obtenidos, 7) Interpretación de los
resultados y Aplicación de los modelos desarrollados al diseño/descubrimiento de un nuevo
compuesto líder, desarrollando procedimientos de tamizaje virtuales. Sin embargo, el
desarrollo de cualquier QSAR es un ciclo interactivo.
1.3.4. Regresión lineal múltiple (RLM).
La RLM estudia las relaciones entre una variable dependiente y un conjunto de variables
independientes. Así mismo, la regresión múltiple remite a la correlación múltiple, que se
representa por R. Es decir, la correlación múltiple analiza la relación entre una serie de
variables independientes o predictores (X1, X2, ..., Xk), considerados conjuntamente, con una
variable dependiente o criterio. Sus fundamentos se hallan en la correlación de Pearson.(71)
La recta de regresión múltiple tiene la siguiente forma:
Y = a + b1 X1 + b2 X2 +...+ bk Xk (1.8)
siendo ‘a’ un valor constante. Como puede observarse, la RLM puede utilizarse en la
predicción de los valores de la variable dependiente, en base a una combinación de variables
independientes.
1.3.4.1. Principio de la parsimonia para seleccionar el número optimo de variables.
La R2 aumenta en la medida en que se añaden variables a la ecuación; pero a partir de cierto
punto el incremento de R2 para cada nueva variable que se añade, es insignificante. Un buen
modelo no debe presentar ni demasiadas variables, ni debe olvidar las que sean
verdaderamente relevantes. Es decir, debe cumplir el principio de la parsimonia, según el
cual un fenómeno debe ser descrito con el número mínimo de elementos posibles.
Diversos procedimientos se han propuesto para seleccionar el número óptimo de variables a
incluir en la ecuación, como por ejemplo la ‘forward selection’, ‘backward elimination;
y ‘stepwise selection’ (72). Este último método es el más utilizado (en combinación con los
dos anteriores) y sigue un proceso de selección de variables paso a paso.
1.3.4.2. Incremento de R2 y correlación parcial.
Se llama incremento de R2 a una estimación de la importancia relativa que tiene la variable
que acaba de entrar en este paso para predecir el criterio. El incremento de R2 viene dado por:
Revisión Bibliográfica 16
Yunier Perera Sardiñas−Predicción de la toxicidad acuática de compuestos orgánicos en Poecilia reticulata
222ic RRR −= (1.9)
donde 2iR es el coeficiente de correlación múltiple al cuadrado cuando todas las variables,
excepto la i (la que acaba de entrar en este paso), están incluidas en la ecuación. Por lo tanto,
la 2iR en un paso determinado coincide con la R2 del paso anterior. Un coeficiente 2
iR alto
significa que esta variable proporciona información importante que no está contenida en las
otras variables.
1.3.4.3. Análisis de la varianza.
El ANOVA (ANalysis Of VAriance) sirve para comprobar la hipótesis de que R2 = 0. La
variabilidad total de la variable dependiente se divide entre la parte atribuible a la regresión y
la parte residual. La distancia de un punto cualquiera Yi a la Y se sub-divide en dos
partes:(71)
( ) ( )YYYYYY iiii −+−=− (1.10)
siendo iY el valor predicho por la ecuación de predicción. El valor ii YY − , denominado
residual de la regresión sería cero si la recta pasase exactamente por encima del punto Yi. El
otro valor, YYi − , corresponde a la distancia explicada por la regresión y representa el
aumento en la estimación de Yi mediante la recta de regresión.
En el ANOVA, F viene dada por:
residual
regresion
MCMC
F = (1.11)
Esta F sigue una distribución F de Snedecor con grados de libertad v1 = υ, v2 = n- υ -1;
siendo υ el número de variables de la ecuación. La media cuadrática (MC) se obtiene
dividiendo la suma de cuadrados por los grados de libertad. La F sirve para comprobar si el
modelo de regresión se ajusta a los datos y permite evaluar si se rechaza la hipótesis nula,
según la cual, R2 = 0. Es interesante observar, que si el modelo se ajusta a los datos, el
coeficiente de determinación (R2) se puede calcular a partir de las suma de cuadrados (SC)
del ANOVA mediante:
total
residual
SCSC
R −=12 (1.12)
Revisión Bibliográfica 17
Yunier Perera Sardiñas−Predicción de la toxicidad acuática de compuestos orgánicos en Poecilia reticulata
1.3.4.4. Importancia de la tolerancia en la RLM.
La tolerancia es una medida del grado de asociación lineal entre las variables independientes
(73). Para la variable i, la tolerancia es igual a 1- 2iR , donde 2
iR es la correlación múltiple al
cuadrado entre la variable i considerada como variable dependiente y las demás variables
independientes. Valores bajos en la tolerancia, indican que la variable i puede ser
considerada como una combinación lineal de las otras variables independientes. Por tanto, la
tolerancia de una variable, en un paso cualquiera del análisis ‘stepwise’, es la proporción de
su varianza intra-grupo no explicada por otras variables del análisis.
1.3.5. Multicolinealidad entre variables con el uso de RLM.
El término ‘multicolinealidad’ se utiliza para describir la situación en que un gran número de
descriptores moleculares están altamente intercorrelacionados. Las variables que se
aproximan a ser una combinación lineal de las otras, se denominan multicolineales o
colineales (71-74). Una ‘multicolinealidad’ alta, produce errores estándares altos en los
coeficientes de regresión y dificulta estimar la importancia relativa de los descriptores en el
modelo, lo cual afecta la interpretación de las actividades modeladas en términos
estructurales. La importancia relativa puede determinarse al valorar el incremento en la R,
cuando se añade una variable a la ecuación que ya contiene las demás variables ( 2iR ). El
método más utilizado para detectar la existencia de variables colineales es obtener una matriz
de correlaciones entre los descriptores moleculares. Uno de los métodos más utilizados para
detectar la interdependencia entre variables, es la tolerancia. Problemas con la redundancia
de la información y la colinealidad, han sido ilustrados con el uso de ITs, tales como los
índices de conectividad molecular (75, 76). El nivel aceptable de colinealidad es algo
subjetivo y en ese sentido se ha reportado que coeficientes de correlación entre las variables
aceptables están en el rango de 0.4-0.9 (77).
1.3.6. Compuestos ‘outliers’ y técnicas para la selección de los mismos.
Los ‘outliers’ son puntos que se desvían significativamente del modelo encontrado (no se
ajustan al modelo) o son pobremente predichos por estos, afectando los parámetros
estadísticos del mismo (78). Generalmente, la identificación de ‘outliers’ busca un
Revisión Bibliográfica 18
Yunier Perera Sardiñas−Predicción de la toxicidad acuática de compuestos orgánicos en Poecilia reticulata
mejoramiento cualitativo del modelo. Un buen ejemplo ha sido mostrado por Cronin y col. en
la modelación de la toxicidad de compuestos carbonílicos alifáticos para T. Pyriformis (77).
En este estudio, para un total de 140 compuestos solo se obtuvo un moderado ajuste
estadístico (R2 = 0.753). Sin embargo, al remover cinco outliers R2 aumentó hasta 0.853 (77).
Existen varias técnicas para detectar la presencia de ‘outliers’, tales como: los análisis de los
residuales estandarizados, los residuales studentizados, el método de Leverage, la estadística
DFITS, la distancia de Cook y el método de dejar “varios” fuera (74).
1.3.7. Validación estadística de los modelos QSAR.
El enfoque convencional adoptado en los análisis QSAR, basado en la RLM, es considerar el
parámetro R2 (‘varianza explicada’), R y s. Las variables como R2 varían entre 0 y 1, donde 1
significa un modelo perfecto (explica el 100% de la variable respuesta, Y) y 0 un modelo sin
ningún poder de explicación. Entonces un alto valor de R2 y una baja s, son condiciones
necesarias para la validez del modelo RLM. O sea, como en ANOVA la validez viene dada
solo por el ensayo F, si varios modelos pasan esta prueba, el de mayor R2 y/o menor s será el
mejor modelo encontrado.
Cuatro herramientas pueden ser utilizadas para acceder a la validación de los modelos QSAR
obtenidos por RLM y la mayoría de estas pueden también extrapolarse a la validación de los
modelos obtenidos con el Análisis Discriminante Lineal (ADL) (79): 1) Aleatorización de la
variable respuesta (Y- Randomización), 2) validaciones cruzadas, 3) división de la data de
compuestos en serie de entrenamiento (SE) y en serie de predicción (SP) y 4) confirmación
del poder predictivo utilizando SP ‘externas’. A continuación desarrollaremos brevemente
solo los puntos referidos a los enfoques de validación de los modelos que son de nuestro
interés.
1.3.7.1. Validación interna de los modelos (Validaciones cruzadas).
La validación cruzada (VC) opera haciendo un número (G) de reducidas modificaciones al
conjunto de compuestos de la data original y entonces calcula la precisión de las predicciones
de cada uno de los resultados de los modelos(80, 81). Entonces, la VC crea G conjuntos de
datos modificados tomando uno o más grupos de compuestos de los datos, en donde cada
observación (compuestos) se toma una vez, sobre el número total de ciclos de VC, G.
Revisión Bibliográfica 19
Yunier Perera Sardiñas−Predicción de la toxicidad acuática de compuestos orgánicos en Poecilia reticulata
Entonces el modelo es ajustado a los nuevos datos, dejando la parte omitida fuera, y estos se
evalúan en el modelo para computar las predicciones de los compuestos que fueron
excluidos. Este procedimiento se repite para cada conjunto de datos modificados. El poder
predictivo del modelo puede expresarse como q2, el cual ha sido denominado como la
‘varianza predictiva’ o la ‘varianza de la validación cruzada’, la cual es igual a (1-
PRESS/SSY), o sea que puede ser calculado acorde a la siguiente fórmula:
( )
2
22 1
∑
∑−
⎟⎠⎞
⎜⎝⎛ −
−=
∧
yyi
yiyiq (1.13)
donde yi ,∧
yi y y es la actividad observada, estimada y el promedio (media) para el i-ésimo
compuesto, respectivamente.
Cuando se utiliza un solo compuesto en cada grupo de VC (lo cual da N grupos), el
procedimiento se conoce como “dejando uno fuera” y sus siglas en ingles son LOO
(acrónimo de Leave-One-Out). No obstante, Shao ha mostrado que desde el punto teórico y
práctico, el procedimiento de dejar ‘varios’ fuera (LSO; Leave-Several-Out) es preferible al
LOO.(82) Este resultado puede entenderse al considerar que sucede cuando el número de
compuesto, N, se incrementa. La técnica de LSO siempre deja fuera una porción de los datos
creando una perturbación constante en la estructura de los datos. Wold y Eriksson
recomiendan utilizar un valor de G alrededor de siete, al utilizar el procedimiento de VC.(79)
El promedio de la media de los errores en valores absolutos, MAE (Mean Absolute Error),
para cada uno de los grupos dejados fuera puede ser usado como un criterio significativo para
acceder a la calidad del modelo (83).
1.3.7.2. Validación de los modelos empleando de una serie de predicción externa.
Usualmente el procedimiento de VC es denominado validación interna, porque todos los
compuestos que considera pertenecen a los mismos datos originales. Sin embargo, cuando el
número de compuestos es grande, estos pueden dividirse en dos conjuntos separados de
entrenamiento o calibración y otro conjunto de validación o predicción (validación externa).
Muchos investigadores consideran a los altos valores de q2 (q2 > 0.5) como un indicador del
poder predictivo de un modelo QSAR.(84-88) En contraste con estas especulaciones, varios
investigadores han demostrado que la “única” condición necesaria y suficiente para poder
Revisión Bibliográfica 20
Yunier Perera Sardiñas−Predicción de la toxicidad acuática de compuestos orgánicos en Poecilia reticulata
estimar el verdadero poder predictivo de un modelo es comparar los valores predichos y
observados de una extensa (suficientemente larga) SP externa.(89-92)
1.3.8. Análisis de conglomerados (análisis de clusters).
El análisis de conglomerados (en inglés cluster) es un técnica multivariante que permite
agrupar los caso o variables de un archivo de dataos en función del parecido o similaridad
existente entre ellos. Como técnica de agrupación de casos el AC es similar al análisis
discriminante. Sin embargo, mientras el análisis discriminante efectúa la clasificación
tomando como referencia un criterio o variable dependiente (los grupos de clasificación), el
AC permite detectar el numero optimo de grupos y su composición únicamente a partir de la
similaridad existente entre los casos; además el AC no asume ninguna distribución especifica
para las variables (74). Un método muy utilizado es el conocido como de k medias, que es un
método de agrupación de casos que se basa en las distancias existentes entre ellos en un
conjunto de variables. El mismo agrupa los casos según su cercanía al centroide (centro
multivariado del cluster) del cluster más cercano; así continúa la lectura secuencial del
archivo de datos asignando cada caso al centroide más cercano y actualizando el valor de los
centroides a medida que se incorporan nuevos casos. El proceso termina cuando todos los
casos han sido asignados a uno de los k clusters.
1.4. Regulaciones de los Métodos QSAR.
La Organización para Cooperación Económica y Desarrollo (OECD) es una organización
intergubernamental en la cual los representantes de 30 países industrializados en
Norteamérica, Europa y la Asia y región Pacífica, así como la Comisión europea, se
encuentran para coordinar y armonizar políticas, hablar de cuestiones de interés mutuo, y
trabajar juntos para responder a problemas internacionales. La mayor parte del trabajo de
OECD es realizado por más de 200 comités especializados y grupos de trabajo formados por
delegados de países miembros. Los comités y los grupos de trabajo son coordinados desde la
secretaría de la organización, localizada en París, Francia, que es organizada en diferentes
secciones y divisiones.
La división de Medioambiente, Salud y Seguridad (EHS por sus siglas en ingles) publica
documentos gratuitos en diez series diferentes: Pruebas y Análisis; Buenas Práctica de
Revisión Bibliográfica 21
Yunier Perera Sardiñas−Predicción de la toxicidad acuática de compuestos orgánicos en Poecilia reticulata
Laboratorio y Conformidad en Monitoreo; Pesticidas y Biocidas; Manejos de Riesgo;
Armonización Regulatoria en Biotecnología; Seguridad de Nuevas Comidas y Alimentos;
Accidentes Químicos; Liberación de Contaminantes y Registros de Transferencia;
Documentos de Guías de Emisión; y la Seguridad en la Fabricación de Nanomateriales. Más
información sobre La división de Medioambiente, Salud y Seguridad y publicaciones EHS
está disponible en el sitio de Web de la OECD (http://www.oecd.org/ehs/).
Los grupos de trabajo de OECD en QSAR y la Reunión Conjunta han concurrido que la
validación de estudios QSAR para objetivos reguladores son mejor realizados por las
autoridades reguladoras de los países miembros. En el futuro previsible, la aceptación de
estudios QSAR como una fuente de alternativa de datos (sin necesidad de realizar pruebas de
laboratorio) para la toma de decisiones estará basada en la fiabilidad y la transparencia de un
específico QSAR dentro de un contexto regulador específico. Por consiguiente, principios de
validación para un modelo QSAR son queridos para dirigir a las agencias reguladoras en la
evaluación e interpretación de los mismos durante procesos de toma de decisión específicos
en un nivel más alto que los criterios que solo solían juzgar la validez estadística. Sin
embargo, la transparencia de la interpretación estadística de un QSAR es la piedra angular
para el uso confiable con carácter regulatorio. Como la aceptación modelos QSAR crece para
llenar la necesidad de datos, es de esperar que la validez estadística permanezca como un
aspecto crucial mientras la interpretación mecanística y explicación de los resultados de los
modelos será requerida siempre que sea posible. Los 5 principios de la OECD que debe
cumplir un modelo QSAR para ser aceptado con fines regulatorios son:
1. un punto de medición definido;
2. un algoritmo inequívoco;
3. un dominio de aplicación definido;
4. apropiadas medidas de calidad de ajuste, robustez y predictibilidad;
5. una interpretación mecanística de ser posible
Un problema crucial de cualquier estudio QSAR es la identificación del dominio de aplicación
(DA) de un modelo de clasificación o de regresión. Pues, en efecto solo son validas las
predicciones para aquellos compuestos que estén dentro del dominio de aplicación. El DA es
aquella región teórica en el espacio químico, definido por los descriptores del modelos y la
respuesta modelada, y por todo esto a su vez por la naturaleza de los compuestos de la serie de
Revisión Bibliográfica 22
Yunier Perera Sardiñas−Predicción de la toxicidad acuática de compuestos orgánicos en Poecilia reticulata
entrenamiento, representado en cada modelo por descriptores moleculares específicos. Se puede
decir por lo tanto, que el DA de un modelo QSAR en “el rango dentro del cual es tolerada una
nueva molécula (93). El dominio de aplicación de un modelo QSAR es la respuesta y el espacio
químico estructural en el cual el modelo realiza predicciones con una adecuada fiabilidad. Por lo
que no se puede pretender extrapolar el uso de los modelos QSAR para aquellos tipos de
compuestos que están fuera del dominio de aplicación (94).
Para la RLM, un enfoque muy empleado es el leverage (h), una medida basada en distancias. A
través del enfoque del leverage (95) es posible verificar si un nuevo compuesto esta dentro del
dominio de aplicación del modelo, el valor de h (95) de un compuesto mide la influencia de este
en el modelo. Los valores de leverage pueden ser calculados para los compuestos de la SE y
nuevos compuestos. En el primer caso, son útiles para encontrar aquellos compuestos que
influencian los parámetros del modelo, y que lo convierten en un modelo inestable. En el
segundo caso, son útiles para chequear el dominio de aplicación del modelo (93, 96). El leverage
crítico es el valor de corte realizado para el modelo en una base de datos. Valores por encima de
este leverage crítico son considerados no fiables. Solo las estructuras químicas predichas que
pertenezcan al dominio de aplicación deben tenerse en cuenta con gran nivel de fiabilidad.
Materiales y Método 23
Yunier Perera Sardiñas−Predicción de la toxicidad acuática de compuestos orgánicos en Poecilia reticulata
MATERIALES Y MÉTODO
2.1 Obtención de la base de datos de toxicidad acuática sobre (Poecilia. Reticulata)
Los compuestos con sus respectivos valores experimentales de concentración letal media
(LC50, concentración en mg/L que produce la muerte del 50% de los animales empleados en
el ensayo luego de 96 horas de exposición al compuesto) para el pececillo (Poecilia.
Reticulata) fueron recopilados de varios artículos publicados (1, 57-59, 97-100). Se empleo
como variable dependiente la transformación logarítmica para los valores de LC50 de igual
manera que en previos estudios.
La recopilación bibliográfica nos permitió construir una base de datos de 300 compuestos de
los cuales 229 se emplearon para construir la serie de entrenamiento (SE) y la serie de
predicción (SP) 71. Se realizó un análisis de conglomerados a los compuestos que se
destinaron para construir la serie de entrenamiento y la serie de predicción con el objetivo de
garantizar representatividad estructural en ambas series. La compilación de datos de
toxicidad sobre (Poecilia. Reticulata) a partir de reportes bibliográficos recientes (1, 57-59,
97-100), nos permite desarrollar un modelo con un dominio de aplicación mayor que los
previamente reportados, lo cual es una característica deseable en este tipo de modelos.
2.2 Método Computacional. TOMOCOMD-CARDD software
Nuestro grupo de investigación ha introducido recientemente un nuevo programa interactivo
para el diseño molecular e investigaciones químio-bioinformáticas. Este programa se
denomina TOMOCOMD (acrónimo de TOpological MOlecular COMputer Design) (101) y
que ha sido desarrollado en la Universidad Central ‘Marta Abreu’ de Las Villas. En este
paquete computacional se ha implementado el cálculo de varias familias de descriptores
moleculares, basados en representaciones vectoriales y matriciales de la estructura molecular.
El programa está compuesto por cuatro sub-programas, cada uno de ellos con un módulo de
visualización y otro de cálculo. Los sub-programas son los siguientes: CARDD (Computed-
Aided ‘Rational’ Drug Design), CAMPS (Computed-Aided Modeling in Protein Science),
CANAR (Computed-Aided Nucleic Acid Research) y CABPD (Computed-Aided Bio-
Polymers Docking), por sus siglas en ingles. En esta tesis se han utilizado los cálculos
obtenidos con el primer sub-programa. Este ‘software’ fue desarrollado basado en una
interfase amigable con el usuario, el cual no tiene que dominar a priori ningún conocimiento
Materiales y Método 24
Yunier Perera Sardiñas−Predicción de la toxicidad acuática de compuestos orgánicos en Poecilia reticulata
de programación computacional. Específicamente, en este trabajo se han utilizado los índices
cuadráticos totales y locales de la matriz de adyacencia entre vértices del ‘grafo’ usado para
la representación de la estructura química de las moléculas o bio-macromoléculas. Estos han
sido empleados en varios estudios QSAR, utilizando el ADL y la RLM como técnicas
estadísticas. En la Figura 2.1 se muestra la interfase gráfica del programa de cálculo
CARDD.
Los principales pasos para desarrollar un estudio QSAR utilizando el enfoque
TOMOCOMD, se resumen brevemente a continuación:
1. Representar el ‘grafo’ molecular de cada una de las moléculas de la base de datos a
analizar, usando el módulo de dibujo del software. Este procedimiento se lleva a cabo
seleccionando el átomo deseado perteneciente a diferentes grupos de la tabla
periódica en el momento de representar las moléculas.
2. Usar un ‘peso’ (etiqueta) apropiado de átomo, con el propósito de diferenciar cada tipo
de átomo en la molécula.
3. Computar los índices cuadráticos totales y locales de la matriz de adyacencia entre
vértices del ‘grafo’ que haya sido utilizado para la representación de la estructura
química de las moléculas. Este paquete computacional genera una tabla en la cual las
filas corresponden a los compuestos (casos) y las columnas a los índices moleculares
calculados.
A
Materiales y Método 25
Yunier Perera Sardiñas−Predicción de la toxicidad acuática de compuestos orgánicos en Poecilia reticulata
B Figura 2.1. TOMOCOMD-CARDD Software: A, Ventana para seleccionar el módulo de trabajo. B, Interfase gráfica del sub-programa de diseño “in silico” de fármacos.
4. Encontrar una o varias ecuaciones QSAR usando técnicas estadísticas adecuadas, tales
como RLM, ADL, entre otras. Es decir, se encuentra una relación cuantitativa entre
una actividad A y la estructura química codificada con los descriptores calculados. En
este caso, la ecuación obtenida debe tomar la siguiente apariencia:
A = a0q0(x) + a1q1(x) + a2q2(x) +….+ akqk(x) + c (2.1)
donde A es la medida de la actividad, qk(x) [o qkL(x)] es el k-ésimo índice cuadrático
total o local, y los términos ak’s son los coeficientes obtenidos por el análisis
estadístico multivariable.
5. Probar la robustez y demostrar el poder predictivo de las ecuaciones QSAR obtenidas
usando procedimientos de validación interna y externa.
2.3. Análisis Estadístico de los Datos. Análisis de RLM.
Los modelos QSAR-RLM se obtuvieron con el paquete de programas estadísticos
STATISTICA (74). El método de selección de variables utilizado fue el de “pasos hacia
delante (‘forward stepwise’). En todos los casos el estadístico F y la tolerancia se usaron
Materiales y Método 26
Yunier Perera Sardiñas−Predicción de la toxicidad acuática de compuestos orgánicos en Poecilia reticulata
para el control del proceder de selección. En este sentido, la colinealidad entre variables fue
examinada utilizando las matrices de correlaciones entre las variables incluidas en el
modelo. Siempre se utilizó, por defecto, como valor mínimo aceptable de tolerancia 0.01.
Los estadísticos usados para evaluar la calidad del modelo y el ajuste del mismo a los datos
experimentales fueron el coeficiente de correlación múltiple (R) y el cuadrado de su valor
(R2, coeficiente de determinación). La desviación estándar (s) y la F de Fischer (y/o el nivel
de significación del modelo y de cada variable, p ≤ 0.05) también se tuvieron en cuenta a la
hora del ajuste y selección de los modelos desarrollados.
La calidad predictiva de las ecuaciones desarrolladas se evaluó utilizando los estadísticos del
proceso de validación cruzada (VC, validación interna). En este sentido, fueron aplicados el
procedimiento de VC, LOO y LGO. Además, en cada caso se utilizaron series de validación
externas, para medir la estabilidad y el poder predictivo de los modelos QSAR obtenidos.
Yunier Perera Sardiñas−Predicción de la toxicidad acuática de compuestos orgánicos en Poecilia reticulata
RESULTADOS Y DISCUSIÓN
3.1 Obtención de los Modelos en la Predicción de la Toxicidad Acuática.
Con el desarrollo de esta investigación se introduce por primera vez el empleo de los
descriptores TOMOCOMD-CARDD para la modelación del potencial ecotoxicológico de
compuestos orgánicos sobre pececillo Poecilia reticulata, conocido comúnmente como
guppys. La recopilación bibliográfica nos permitió construir una base de datos de 300
compuestos a los que se les aplicó un análisis de conglomerados realizado para garantizar la
representatividad estructural en ambas series (SE y SP). La SE empleada para entrenar los
modelos estaba formada por 229 compuestos quedando los 71 compuestos restantes como
una serie de predicción externa. Se debe destacar que la condición necesaria y suficiente para
asegurar el poder predictivo de un modelo es el análisis de los estadísticos para una serie de
predicción externa.
Durante el desarrollo de los modelos fueron detectados como outliers siete compuestos
(comp. No. 100, 109, 111, 239, 245, 258 y 278) para ambas ecuaciones (ver Tabla 3.1). Para
el modelo obtenido empleando los índices cuadráticos no-estocásticos basados en átomos se
detectaron otros cuatro compuestos con este comportamiento (comp. No. 118, 244, 253 y
268) mientras que para el modelo desarrollado con índices estocásticos también se detectaron
cuatro compuestos (comp. No. 112, 126, 220 y 246) adicionales. Como puede verse el
número máximo de compuestos extraídos fue de 11 para cada una de nuestras ecuaciones, si
tenemos en cuenta que el porcentaje comúnmente aceptado de outliers es de menos del 10%
de toda la base de datos (102, 103) y que el porcentaje de este tipo de compuestos para
nuestros modelos fue de 3.67%; entonces podemos decir que la extracción de outliers en
nuestro estudio esta dentro de los establecido en la literatura.
Los mejores modelos obtenidos para cada una de estas familias de índices se muestran a
continuación junto a sus parámetros estadísticos:
Log (LC50) = 4.741(±0.140) +0.022(±0.004)MEq0(x) -0.132(±0.017)PZq1(x)
+0.042(±0.007)PZq2(x) +5.99x10-8(±1.33x10-8)VdWq8H(x)
-6.20x10-5(±1.10x10-5)VdWq3(x) -4.46x10-4(±1.40x10-4)VdWq0L(xE)
-0.309(±0.053)logP (3.1)
N = 218 R2 = 0.807 s = 0.649 F = 125.08 p < 0.0001
q2 = 0.789 scv = 0.667 R2pred = 0.836
Resultados y Discusión 28
Yunier Perera Sardiñas−Predicción de la toxicidad acuática de compuestos orgánicos en Poecilia reticulata
Log (LC50) = 4.740(±0.127) +0.587(±0.124)sMEq7LH(xE) -0.587(±0.123) sMEq9L
H(xE)
-1.510(±0.260) sPEq5H(x) +1.524(±0.261) sPEq7
H(x)
-1.87x10-3(±0.45x10-3) sVdWq1H(x) +3.46x10-3(±4.47x10-4) sVdWq2
H(x)
- 2.64x10-3 (±5.01x10-4 ) sVdW q14(x) (3.2)
N = 218 R2 = 0.808 s = 0.636 F = 126.22 p < 0.0001
q2 = 0.791 scv = 0.652 R2pred = 0.801
donde N es el número de compuestos empleados para entrenar el modelo, R2 es el
coeficiente de correlación; mientras que s es la desviación estándar del modelo. Los
estadísticos q2 y scv se corresponden al proceso de validación interna o cruzada LOO. Los
valores de toxicidad acuática sobre Poecilia Reticulata (guppy) predichos por el modelo para
la SE son mostrados en la Tabla 3.1 y las estructuras de los compuestos pueden ser vistas en
el Anexo 1. Los parámetros estadísticos mostrados por el modelo son adecuados, teniendo en
cuenta la complejidad de la base de datos empleadas así como su diversidad estructural.
Como puede observarse nuestra SE es más extensa que las publicadas hasta el momento y
fue desarrollada con el objetivo de ampliar el dominio de aplicación incluyendo una mayor
variedad de compuesto químicos con diferentes grupos funcionales. El modelo es capaz de
describir más del 80 % de la varianza experimental de los valores de toxicidad acuática y el
alto valor del coeficiente de determinación de la validación cruzada (q2 > 0.78) nos brinda
una idea sobre la robustez y el poder predictivo del modelo, esto en particular será tratado
mas extensamente en el próximo epígrafe donde además se realizara un análisis sobre el
dominio de aplicación. No obstante la condición necesaria y suficiente para asegurar el poder
predictivo de un modelo es analizar los resultados de una SP externa conformada por 71
compuestos, que no fueron empleados en la construcción del modelo.
Esta serie externa fue empleada para validar nuestro modelo y los valores predichos para
estas sustancias puede ser encontradas también en la Tabla 3.1 y las estructuras pueden ser
encontradas en el Anexo 2. Tres compuestos fueron detectados como outliers para esta serie
por cada una de las ecuaciones; para el modelo no-estocástico fueron los compuestos No. 99,
110 y 238, mientras que para el modelo estocástico fueron los compuestos No. 110, 176 y
238 los que tuvieron desviaciones estándar mayores que las aceptables. Un tratamiento mas
detallado respecto a estos compuestos será realizado en el epígrafe siguiente cuando se
aborde el tema del dominio de aplicación de los modelos.
Resultados y Discusión 29
Yunier Perera Sardiñas−Predicción de la toxicidad acuática de compuestos orgánicos en Poecilia reticulata
Table 3.1. Valores experimentales y predichos [Log (LC50)] para la serie de entrenamiento y para la serie de predicción.
Serie de Entrenamiento Serie de Predicción Compuestos
Log (LC50) No-estocástico Estocástico No-estocástico Estocástico
001_Methanol 5.940 5.160 4.656 002_Ethanol 5.440 4.551 4.886 003_2-propanol 5.160 4.230 4.333 004_1-Butanol 4.370 3.680 4.179 005_Isobutanol 4.290 3.905 3.698 006_t-Butanol 4.680 4.047 3.916 007_3-Pentanol 4.050 3.358 3.223 008_1-Hexanol 2.980 2.967 2.758 009_1-Octanol 2.020 2.217 2.054 010_ 1-Nonanol 1.600 1.850 1.697 011_ 1-Decanol 1.190 1.488 1.353 012_1-Undecanol 0.790 1.128 1.006 013_1-Dodecanol 0.740 0.773 0.665 014_ 2-Methyl-2,4-pentanediol 4.960 3.486 3.600 015_Cyclohexanol 3.850 2.552 2.596 016_2,2,2-Trichloroethanol 3.310 2.850 2.456 017_2-Butoxyethanol 3.920 3.486 3.265 018_Acetone 5.100 4.102 4.547 019_2-Butanone 4.650 3.650 3.933 020_3-Pentanone 4.260 3.221 3.775 021_2-Octanone 2.450 2.130 3.012 022_5-Nonanone 2.340 1.746 2.830 023_2-Decanone 1.570 1.401 2.417 024_3-Methyl-2-butanone 4.010 3.393 3.474 025_6-Methyl-5-hepten-2-one 2.840 2.361 2.732 026_6-Methyl-5-hepten-2-one 3.130 2.268 2.119 027_3,3-Dimethyl-2-butanone 2.940 3.332 3.241 028_4-Methyl-2-pentanone 3.710 3.065 4.295 029_benzophenone 1.930 0.895 0.717 030_Cyclohexanone 3.730 2.535 3.474 031_Dipentylether 1.310 1.731 1.761 032_2-Hydroxy-4-methoxyacetophenone 2.520 2.575 2.017 033_Tetrachloromethane 2.640 3.001 2.619 034_Chlorobenzene 2.230 1.944 2.232 035_1,2-Dichlorobenzene 1.600 1.342 1.687 036_1,2,4-Trichlorobenzene 1.170 0.816 1.172 037_1,3,5-Trichlorobenzene 1.260 0.882 1.199 038_3,4-Dichlorotoluene 1.400 1.296 1.449 039_Toluene 2.870 2.416 2.488 040_4-Chloro-2-nitrotoluene 1.560 2.057 1.824 041_Nitrobenzene 3.030 2.650 2.448 042_2-Nitrotoluene 2.410 2.579 2.332 043_3-Nitrotoluene 2.350 2.593 2.156 044_4-Nitrotoluene 2.330 2.585 2.099 045_2,3-Dimethylnitrobenzene 1.610 2.506 2.007
Resultados y Discusión 30
Yunier Perera Sardiñas−Predicción de la toxicidad acuática de compuestos orgánicos en Poecilia reticulata
Table 3.1. Cont… Serie de Entrenamiento Serie de Predicción
Compuestos Log
(LC50) No-estocástico Estocástico No-estocástico Estocástico
046_3,4-Dimethylnitrobenzene 1.790 2.512 1.796 047_Phenol 2.550 2.701 2.759 048_2-Methylphenol 2.230 2.604 2.607 049_3-Methylphenol 2.520 2.631 2.514 050_4-Methylphenol 2.260 2.629 2.501 051_2,4-Dimethylphenol 2.140 2.556 2.352 052_3,4-Dimethylphenol 2.080 2.542 2.242 053_2,3,6-Trimethylphenol 1.790 2.462 2.226 054_4-Ethylphenol 1.930 2.262 2.431 055_4-Propylphenol 1.910 1.935 2.182 056_4-t-Butylphenol 1.540 2.097 1.881 057_2-t-Butyl-4-methylphenol 1.100 2.060 2.000 058_4-n-Pentylphenol 0.880 1.225 1.441 059_4-t-Pentylphenol 1.190 1.688 1.530 060_2-Allylphenol 2.040 2.080 2.062 061_2-Phenylphenol 1.240 1.562 0.755 062_1-Naphthol 1.500 2.233 1.358 063_4-Chlorophenol 1.820 2.155 2.249 064_4-Chloro-3-methylphenol 1.670 2.046 2.059 065_4-Chloro-3,5-dimethylphenol 1.340 1.959 1.875 066_3-Methoxyphenol 2.780 2.848 2.606 067_4-Methoxyphenol 2.950 2.847 2.556 068_4-Phenoxyphenol 1.420 0.820 0.802 069_Quinoline 2.370 2.119 1.680 070_Aniline 3.090 2.617 2.627 071_2-Methylaniline 2.880 2.521 2.406 072_3-Methylaniline 2.530 2.552 2.348 073_4-Methylaniline 2.280 2.548 2.352 074_N,N-dimethylaniline 2.670 2.554 2.336 075_2-Ethylaniline 2.790 2.160 2.384 076_3-Ethylaniline 2.350 2.187 2.280 077_4-Ethylaniline 2.480 2.181 2.286 078_4-Butylaniline 1.840 1.502 1.643 079_2,6-Diisopropylaniline 1.940 1.440 1.786 080_2-Chloroaniline 1.690 2.035 2.144 081_3-Chloroaniline 2.020 2.075 2.125 082_2,5-Dichloroaniline 1.010 1.503 1.651 083_3,5-Dichloroaniline 1.380 1.545 1.636 084_3-Benzyloxyaniline 1.660 0.457 0.274 085_4-Hexyloxyaniline 1.220 0.215 0.730 086_2-Nitroaniline 1.850 2.708 2.440 087_3-Nitroaniline 2.760 2.721 2.242 088_4-Chloroaniline 2.330 2.073 2.109 089_2,4-Dichloroaniline 1.010 1.503 1.639 090_3,4-Dichloroaniline 1.610 1.478 1.593
Resultados y Discusión 31
Yunier Perera Sardiñas−Predicción de la toxicidad acuática de compuestos orgánicos en Poecilia reticulata
Table 3.1. Cont… Serie de Entrenamiento Serie de Predicción
Compuestos Log
(LC50) No-estocástico Estocástico No-estocástico Estocástico
091_2,3,4-Trichloroaniline 0.850 0.853 1.109 092_2,4,5-Trichloroaniline 1.080 0.917 1.130 093_4-Bromoaniline 2.440 1.823 1.989 094_α, α, α,4-Tetrafluoro-3-methylaniline 2.230 2.427 2.122 095_ α,α,α,4-Tetrafluoro-2-methylaniline 2.220 2.421 2.094 096_Pentafluoroaniline 2.310 2.169 2.523 097_2-Chloro-4-nitroaniline 2.070 2.147 1.677 098_4-Ethoxy-2-nitroaniline 2.150 2.353 2.113 099_1-Chloro-2,4-dinitrobenzene 0.190 -outlier- 1.266 100_2,4-dinitroaniline 4.480 -outlier- -outlier- 101_3,5-Dichloronitrobenzene 1.420 1.589 1.397 102_2-Chloronitrobenzene 2.280 2.083 2.001 103_3-Chloronitrobenzene 1.990 2.114 1.916 104_4-Chloronitrobenzene 1.580 2.110 1.865 105_2,3-Dichloronitrobenzene 1.340 1.494 1.446 106_2,4-Dichloronitrobenzene 1.540 1.555 1.433 107_2,5-Dichloronitrobenzene 1.410 1.558 1.483 108_2-Chloro-6-nitrotoluene 1.480 2.004 1.840 109_1,2-Dinitrobenzene 5.150 -outlier- -outlier- 110_1,3-Dinitrobenzene 4.640 -outlier- -outlier- 111_1,4-Dinitrobenzene 5.630 -outlier- -outlier- 112_2,4-Dinitrotoluene 4.160 2.652 -outlier- 113_Propionaldehyde 3.590 4.068 4.174 114_Butyraldehyde 3.720 3.658 4.121 115_Valeraldehyde 3.820 3.263 3.629 116_Hexylaldehyde 4.010 2.877 3.471 117_Heptylaldehyde 4.110 2.499 3.090 118_Octylaldehyde 4.210 -outlier- 2.843 119_Azinphos-methyl-2D-skeletal -0.740 -0.735 -0.896 120_Isobutyraldehyde 3.430 3.839 4.099 121_2-Methylbutyraldehyde 3.940 3.397 3.824 122_Isovaleraldehyde 4.420 3.440 4.153 123_1,1,2-trichloroethane 2.820 2.434 1.787 124_tetrachloroethene 1.980 1.864 2.235 125_trichloroethene 2.580 2.367 2.451 126_triethyleneglycol 5.650 4.234 -outlier- 127_1,3-dihydroxybenzene 2.960 2.870 2.773 128_1,2-dimethylpropylaminene 3.510 3.372 2.973 129_1-adamantaneamine 2.220 1.255 1.790 130_1-amino-2-propanol 4.520 4.284 4.021 131_1-methylheptylamine 1.600 2.104 2.260 132_2,2-dimethylpropylamine 3.740 3.712 3.634 133_2,3,4,5-tetrachloroaniline 0.190 0.361 0.613 134_2,3,4,5-tetrachlorophenol 0.480 0.443 0.726 135_2,3,4,6-tetrachlorophenol 0.670 0.477 0.742
Resultados y Discusión 32
Yunier Perera Sardiñas−Predicción de la toxicidad acuática de compuestos orgánicos en Poecilia reticulata
Table 3.1. Cont… Serie de Entrenamiento Serie de Predicción
Compuestos Log
(LC50) No-estocástico Estocástico No-estocástico Estocástico
136_2,3,5,6-tetrachlorophenol 0.740 0.477 0.748 137_2,3,5-trichlorophenol 1.080 1.003 1.254 138_2,3,6-trichlorophenol 1.440 0.972 1.243 139_2,3,5,6-tetrachloroaniline 0.070 0.386 0.666 140_2,3,6-trichloroaniline 1.270 0.879 1.162 141_2,4,5-trichlorophenol 0.800 1.002 1.244 142_2,4,6-tribromophenol 1.300 0.303 0.843 143_2,4,6-trichlorophenol 1.060 1.037 1.264 144_2,4-dichlorophenol 1.410 1.591 1.752 145_2,5-dichlorophenol 1.420 1.591 1.758 146_2,6-dichlorophenol 1.680 1.561 1.751 147_2,6-dimethylphenol 2.250 2.532 2.454 148_2-aminoethanol 4.540 4.677 4.269 149_2-chloro-4-methylphenol 2.400 2.070 2.025 150_1-chlorobutane 3.020 2.745 2.333 151_1,1-dichloroethane 3.310 3.204 2.597 152_1,1,1-trichloroethane 3.000 3.118 2.658 153_1,1,2,2-tetrachloroethane 2.230 1.949 1.433 154_1,2-dichloroethane 3.060 2.862 2.169 155_1,2-dichloropropane 3.010 2.654 2.270 156_1,2-ethanediol 5.900 4.871 4.483 157_1,2,3-trichlorobenzene 1.110 0.752 1.153 158_1,2,3-trichloropropane 2.450 1.903 1.315 159_1,2,3,4-tetrachlorobenzene 0.650 0.171 0.627 160_1,2,3,5-tetrachlorobenzene 0.570 0.235 0.650 161_1,2,4,5-tetrachlorobenzene 0.150 0.234 0.646 162_1,3-dichlorobenzene 1.720 1.407 1.710 163_1,4-dichlorobenzene 1.440 1.406 1.706 164_1,3-dichloropropane 2.870 2.453 1.831 165_2-ethoxyethanol 5.260 4.256 3.845 166_2-isopropoxyethanol 4.720 3.888 3.608 167_2-methoxyethanol 5.360 4.813 4.220 168_2,4-dichlorotoluene 1.460 1.305 1.500 169_2,4,5-trichlorotoluene 0.940 0.729 0.992 170_4-chlorotoluene 1.670 1.882 1.964 171_3-chlorotoluene 2.260 1.885 1.985 172_benzene 2.910 2.492 2.765 173_butyldigol 3.850 3.889 3.856 174_chloroform 2.930 3.023 2.451 175_dichloromethane 3.540 3.332 2.755 176_diethyleneglycol 5.760 4.527 -outlier- 177_diethylether 4.460 3.972 3.705 178_m-xylene 2.550 2.365 2.209 179_o-xylene 2.520 2.325 2.202 180_p-xylene 2.520 2.358 2.250
Resultados y Discusión 33
Yunier Perera Sardiñas−Predicción de la toxicidad acuática de compuestos orgánicos en Poecilia reticulata
Table 3.1. Cont… Serie de Entrenamiento Serie de Predicción
Compuestos Log
(LC50) No-estocástico Estocástico No-estocástico Estocástico
181_pentachlorobenzene -0.150 -0.319 0.112 182_pentachloroethane 1.740 1.747 1.544 183_2-chlorophenol 1.940 2.125 2.250 184_2-methoxyethylamine 3.840 4.621 3.963 185_3,3-dimethylbutylamine 3.780 3.306 3.353 186_3,4,5,6tetrachloro2hydroxyphenol 1.000 0.660 0.884 187_3,4,5trichloro2,6dimethoxyphenol 1.120 1.403 1.688 188_3,4,5-trichloro-2-methoxyphenol 1.030 1.189 1.394 189_3,4,5-trichlorophenol 0.920 0.969 1.228 190_3,5-dichlorophenol 1.220 1.623 1.769 191_3-chlorophenol 1.700 2.156 2.258 192_3-nitrophenol 1.930 2.800 2.364 193_4,5-dicloro-2-methoxyphenol 1.400 1.711 1.762 194_4-(n-methoxymrthyl)aminophenol 2.730 2.787 1.975 195_4-amino-2-nitrophenol 2.360 2.853 2.398 196_4-decylaniline -0.580 -0.403 -0.779 197_Bromophos 0.090 -0.672 -0.278 198_4-n-butylphenol 1.530 1.582 1.789 199_4-nitroaniline 2.770 2.717 2.160 200_4-nitrophenol 2.010 2.798 2.276 201_4-nonylphenol -0.200 -0.181 0.064 202_4-octylaniline -0.230 0.087 0.240 203_4-phenylazophenol 0.760 0.653 0.652 204_amylamine 3.310 3.160 3.028 205_benzylamine 2.980 2.523 2.506 206_butylamine 3.560 3.557 3.380 207_decylamine 0.820 1.295 1.342 208_dodecylamine -0.270 0.580 0.661 209_ethylamine 3.700 4.400 4.163 210_heptylamine 2.280 2.396 2.361 211_hexylamine 2.750 2.774 2.695 212_nonylamine 1.180 1.657 1.682 213_octylamine 1.600 2.024 2.027 214_propylamine 3.720 3.972 3.679 215_s-butylamine 3.580 3.632 3.416 216_t-octylamine 2.280 2.633 2.903 217_tridecylamine -0.460 0.227 0.324 218_undecylamine 0.090 0.936 1.000 219_1,4-dimethoxybenzene 2.930 2.830 2.350 220_2-(2-ethoxyethoxy)ethanol 5.300 3.972 -outlier- 221_2,6-dimethoxytoluene 2.130 2.748 2.322 222_2-phenoxyethanol 3.400 2.481 2.370 223_3-furanmethanol 3.720 3.594 3.344 224_dibutyl ether 2.400 2.463 2.563 225_diisopropyl ether 2.290 3.252 3.665
Resultados y Discusión 34
Yunier Perera Sardiñas−Predicción de la toxicidad acuática de compuestos orgánicos en Poecilia reticulata
Table 3.1. Cont…. Serie de Entrenamiento Serie de Predicción
Compuestos Log
(LC50) No-estocástico Estocástico No-estocástico Estocástico
226_diphenyl ether 1.380 0.650 0.877 227_furan 2.960 3.457 3.461 228_hexachloroethane 0.810 1.485 1.680 229_t-butylmethyl ether 3.910 2.898 3.504 230_tetrahydrofuran 4.480 3.782 3.581 231_2-(2-buthoxyethoxy)ethanol 3.850 3.233 2.796 232_1,2,7,8-diepoxyoctane 1.670 2.409 2.475 233_1,2-epoxybutane 2.660 3.764 3.784 234_1,2-epoxydecane 1.320 1.508 1.894 235_1,2-epoxydodecane 0.780 0.793 1.179 236_1,2-epoxyhexane 2.270 2.987 3.186 237_1,2-epoxyoctane 1.910 2.238 2.587 238_1,3-butadienediepoxide 1.490 -outlier- -outlier- 239_1,4-dichloro-2-butene -0.160 -outlier- -outlier- 240_1-chloro-2-butene 1.820 2.636 2.480 241_2,2-dichlorodiethyl ether 2.540 2.653 1.776 242_2,3-dichloropropene 1.010 2.584 2.615 243_2,4-R-trichlorotoluene 0.080 0.592 0.512 244_2,5-dinitrophenol 1.000 -outlier- 1.752 245_2-butenal 0.900 -outlier- -outlier- 246_2-ethylbutenal 1.890 2.972 -outlier- 247_2-furaldehyde 2.040 3.417 3.013 248_Etrinfos 1.090 0.673 1.728 249_2-s-butyl-4,6-dinitrophenol 0.170 1.889 1.088 250_3-chloro-1-butene 1.850 2.652 3.037 251_3cyclohexene1carboxaldehyde 1.010 2.269 2.579 252_Ronnel 0.000 -0.415 -0.152 253_4-dinitrobenzylbromide -0.300 -outlier- 0.356 254_allyl chloride 1.200 2.955 2.929 255_benzaldehyde 1.570 2.608 2.331 256_benzyl chloride 0.490 1.689 1.491 257_Proclonol 0.010 -0.978 -1.340 258_chloroacetone 0.880 -outlier- -outlier- 259_cyclohexanecarboxaldehyde 1.910 2.292 3.075 260_decanal 1.310 1.523 2.105 261_alpha,alpha,-Dichloro-mxylene -0.160 0.932 0.216 262_2,4-dichloroacetophenone 1.800 1.190 1.102 263_ethanal 2.900 4.497 4.432 264_glycidol 2.830 4.455 4.006 265_Phosmet -0.120 -0.335 -0.884 266_hexachlorobutadiene -0.200 -0.029 0.540 267_Phenthoate -0.990 -0.726 -0.734 268_methanal 2.960 -outlier- 4.557 269_Methylparathion 0.610 1.281 1.055 270_pentachlorophenol 0.220 -0.075 0.232
Resultados y Discusión 35
Yunier Perera Sardiñas−Predicción de la toxicidad acuática de compuestos orgánicos en Poecilia reticulata
Table 3.1. Cont… Serie de Entrenamiento Serie de Predicción
Compuestos Log
(LC50) No-estocástico Estocástico No-estocástico Estocástico
271_Methylisocyanothion 0.230 0.989 0.776 272_Methidathion -0.960 0.002 -0.589 273_propylene oxide 2.740 4.197 3.986 274_styrene oxide 1.770 2.430 1.883 275_4-hexylresorcinol 0.720 1.023 1.335 276_2,3,4-trimethoxyacetophenone 2.920 2.734 2.502 277_acrylamide 2.690 3.794 3.687 278_allyl alcohol 1.160 -outlier- -outlier- 279_decamethrin -2.340 -2.860 -2.859 280_fluoroacetamide 2.880 4.472 4.466 281_2-Methyl-1-propanol 4.290 3.946 3.756 282_2-Methyl-2-propanol 4.680 4.072 4.517 283_Lindane -0.690 -1.076 -1.445 284_Methyl tert-butyl ether 3.910 3.946 3.465 285_Iodofenphos 0.320 -0.406 -0.311 286_1,2-Dibromobenzene 0.970 0.802 1.383 287_Ethylbenzene 1.960 2.048 2.435 288_Isopropylbenzene 1.630 1.869 2.183 289_fenthion 0.890 0.077 0.366 290_Acetonitrile 4.600 4.217 4.426 291_Fenitrothion 1.000 1.235 1.016 292_Disulfiram -1.650 -0.528 -2.245 293_Dicapthon 0.430 0.527 -0.139 294_Cyanophos 1.750 1.452 1.139 295_Propylbenzene 1.660 1.721 2.196 296_Butylbenzene 1.410 1.369 1.777 297_Chlorthion -0.190 0.734 0.547 298_4-Ethoxy-3-nitroaniline 2.150 2.363 2.199 299_Thiomedon 1.530 0.931 1.330 300_Lethane 0.760 1.597 1.241
3.2. Cumplimiento de los principios de la OECD.
A continuación veremos el cumplimiento de estos principios en nuestro estudio. En cuanto al
primer principio referido a un punto de medición definido en nuestro estudio fue la
concentración letal media (LC50). El algoritmo seguido en nuestro trabajo no presenta
ambigüedades y fue descrito en el Capitulo 2 donde puede ser consultado. El tercer principio
lo trataremos con un mayor detalle debido a la importancia que tiene el mismo.
Un problema crucial en los estudios quimiométricos y QSAR es la definición del Dominio de
Aplicación (DA) de un modelo de clasificación o regresión. “Incluso de un modelo QSAR
robusto, significativo y validado no pueden esperarse predicciones fiables de la propiedad
modelada para el universo completo de compuestos químicos. En efecto, solo las
Resultados y Discusión 36
Yunier Perera Sardiñas−Predicción de la toxicidad acuática de compuestos orgánicos en Poecilia reticulata
predicciones para los compuestos que caen dentro del dominio de aplicación pueden
considerarse fiables y no las extrapolaciones de los modelos”(96) En consecuencia, no se
puede pretender extrapolar el uso de los modelos para otros tipos de compuestos que este
fuera del DA, haciendo predicciones inciertas.
En este caso, para visualizar el DA de un modelo QSTR, utilizamos un gráfico de William,
donde se emplean los residuales estandarizados (primera y segunda ordenada) y los
leverages, (h). Los valores de h definen el DA del modelo como el área cuadrada en el
intervalo de ±3 para los residuales, un valor de corte para la aceptación de las predicciones,
pues los puntos que caen dentro de estos valores de residuales estandarizados a partir de la
media cubren el 99% de la data normalmente distribuida. Además un valor de leverage
umbral de h = 0.0963 fue calculado como el valor de leverage critico (h*) para la predicción
de la toxicidad acuática sobre P. reticulata. El grafico de William puede ser usado para una
detección grafica e inmediata de ambos tipos de respuestas outliers (es decir compuestos con
residuales estandarizados mayores que las tres unidades de desviación estándar, >3σ,) y
compuestos que influyen estructuralmente en el modelo (h>h*).
A continuación se muestran los gráficos de William para los modelos desarrollado con índices
no-estocásticos y con índices estocásticos respectivamente:
Dominio de Aplicacionmodelo no-estocastico
Entrenamiento Prediccion
0.00 0.02 0.04 0.06 0.08 0.10 0.12 0.14 0.16 0.18 0.20 0.22 0.24
Leverage
-4
-3
-2
-1
0
1
2
3
4
-4
-3
-2
-1
0
1
2
3
4
Figura 3.1. Gráfico de Dominio de Aplicación para el modelo desarrollado con índices no-estocásticos
Resultados y Discusión 37
Yunier Perera Sardiñas−Predicción de la toxicidad acuática de compuestos orgánicos en Poecilia reticulata
Dominio de Aplicacion
Modelo estocastico
Entrenamiento Prediccion
0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40
Leverage
-5
-4
-3
-2
-1
0
1
2
3
4
5
-5
-4
-3
-2
-1
0
1
2
3
4
5
Figura 3.2 Gráfico de Dominio de Aplicación para el modelo desarrollado con índices estocásticos
Como se puede observar en esta Figura 3.1 la mayoría de los compuestos están dentro de esta
área. Solo algunos compuestos (12 compuestos) de los 218 compuestos de la serie de
entrenamiento tuvieron valores de leverage más alto que el umbral prefijado, pero sus residuales
estandarizados estuvieron dentro de los límites. Para la serie de predicción solo un compuesto
(Lindano) presento un valor de leverage mayor que el valor critico, mientras que tres compuestos
de esta serie fueron predichos incorrectamente; uno de ellos (Comp. No. 238) con σ >-3 y otro
dos con valores muy cercanos a 3σ (-2.93 y 2.894 para los compuestos 099 y 110,
respectivamente), los mismos fueron identificados como outliers. A continuación se muestra el
gráfico de William para el modelo desarrollado con índices estocásticos:
Por otra parte en la Figura 3.2, correspondiente al modelo estocástico, puede verse que también
la mayoría de los compuestos están dentro de esta área, solo diez compuestos (de 218
compuestos) de la serie de entrenamiento tuvieron valores de leverage más alto que el umbral
prefijado, pero sus residuales estandarizados estuvieron dentro de los límites. El comportamiento
para la serie de predicción fue muy similar pues solo un compuesto (Lindano) presento un valor
de leverage mayor que el valor critico. En cuanto a las desviaciones estándar, tres compuestos de
esta serie fueron predichos incorrectamente; dos compuestos (comp. No. 110 y 238) tuvieron
Resultados y Discusión 38
Yunier Perera Sardiñas−Predicción de la toxicidad acuática de compuestos orgánicos en Poecilia reticulata
valores mayores de ±3σ y el otro con un valor de σ de 2.82 (para el compuesto No. 176), los
mismos fueron identificados como outliers.
Para chequear el cumplimiento del cuarto principio de la OECD para nuestros modelos
desarrollamos una validación interna. La validación cruzada (VC) que consiste en la operación
de hacer un numero (G) de reducidas modificaciones al conjunto de compuestos de la data
original y entonces se calcula la precisión de las predicciones de cada uno de los resultados de
los modelos. Con el objetivo de demostrar la robustez de nuestros modelos, se escogió la tecnica
de VC conocida como dejando-n%-fuera (Leave-n-out).
En las Figuras 3.3 y 3.4 se ilustran los resultados de este proceso de validación dejando varios
tamaños de grupos fuera, es decir, el 5,10,15,20, 25 y 30% de la SE, representados en el eje de
las abcisas por 5%, 10%, 15%, 20%, 25% y 30%, respectivamente. En el eje de la ordenada (Y)
se muestra el valor del coeficiente de determinación y el valor del q2 obtenido para cada modelo
luego de realizársele la perturbación correspondiente. De este resultado puede concluirse que el
modelo presenta una gran estabilidad a perturbaciones dentro de la base de datos.
validacion cruzadamodelo no-estocastico
R2
q2modelo 5% 10% 15% 20% 25% 30%
porcentaje de perturbacion
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
Figura 3.3 Comportamiento del modelo 3.1 en la Validación Cruzada (LGO).
Resultados y Discusión 39
Yunier Perera Sardiñas−Predicción de la toxicidad acuática de compuestos orgánicos en Poecilia reticulata
validacion cruzadamodelo estocastico
R2
q2modelo 5% 10% 15% 20% 25% 30%
porcentaje de perturbacion
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
Figura 3.4 Comportamiento del modelo 3.2 en la Validación Cruzada (LGO).
3.3. Empleo de los modelos desarrollados para la predicción del potencial ecotoxicológico
de compuestos Ocioso y Caducos de la UCLV.
El ‘screening’ virtual es una interesante alternativa para el evaluar la toxicidad de compuestos
químicos. En este sentido, esta tesis propone utilizar dicho enfoque con el objetivo de predecir la
toxicidad acuática de medicamentos. Este nuevo enfoque permitirá predecir la toxicidad de
compuestos orgánicos y por tanto, valorar el impacto que tendrían la presencia de los mismos
sobre el medio ambiente.
Partiendo de la estructura molecular de los compuestos y utilizando el TOMOCOMD se puede
evaluar, en los modelos antes obtenidos, una gran cantidad de moléculas, para nuestro estudio
serán los reactivos que forman parte de la lista de ociosos y caducos de la UCLV. Es importante
destacar, que los compuestos a evaluar deben cumplir el requisito obligatorio de que su
estructura química se encuentre en el dominio de aplicación de los modelos, lo cual se tuvo en
cuenta en el presente estudio. Este análisis se puede observar tanto para el modelo no-estocástico
como para el estocástico en las Figuras 3.5 y 3.6, respectivamente. Entre las sustancias de esta
base de datos de reactivos ociosos y caducos se selecciono un grupo a los cuales, se les predijo
Resultados y Discusión 40
Yunier Perera Sardiñas−Predicción de la toxicidad acuática de compuestos orgánicos en Poecilia reticulata
su toxicidad acuática. La lista de reactivos considerados aquí junto a la toxicidad acuática
predicha para los mismos por cada uno de los modelos desarrollados puede ser encontrada a
continuación en la Tabla 3.2.
Tabla 3.2. Compuestos de la base de datos de reactivos Ociosos Caducos y Peligrosos y sus valores de toxicidad predichos por los modelos no estocastico (Eq. 3.1) y estocastico (Eq. 3.2) Nombre Eq. 3.1 Eq. 3.2 Nombre Eq. 3.1 Eq. 3.2 1,10-phenanthroline 2.908 0.843 buthyl ether 2.584 2.563 1-bromobutane 1.891 1.793 cyclohexyl amine 2.669 2.757 1-bromonaphthalene 2.196 0.739 diethanolaminie 3.350 3.726 1-pentanol 3.165 3.105 diethyl carbonate 3.385 4.761 2,2'-bipyridine 3.779 1.641 diethyl malonate 2.704 3.671 2,6-dinitrophenol 2.382 1.960 diethyl sulfate 4.827 3.894 2-chloropropane 4.356 3.218 diethyl sulfide 3.119 2.276 2-pentanol 3.378 3.518 ethanol amine 4.245 4.269 3-bromo-1-nitrobenzene 1.770 1.849 ethyl bromide 3.934 2.335 4-bromotoluene 2.410 1.789 ethyl formate 3.946 4.384 4-methylnitrobenzene 2.419 2.352 ethylamine 3.855 4.163 aminoacetic acid 3.655 4.625 ethylene chlorhydrin 4.103 3.333 aniline hydrochloride 2.782 2.627 methanesulfonyl chloride 3.823 3.731 benzamide 2.758 2.180 o-cresol 3.463 2.607 benzanilide 0.672 0.428 o-toluidine 2.852 2.406 Benzidine 1.974 0.415 succinic acid, disodium salt 2.986 3.498 benzoyl bromide 2.087 1.320 trimethylamine hydrochloride 5.249 4.489 benzoyl chloride 1.900 1.559
Como puede ser observado en la Figura 3.5 cinco compuestos de la base de datos de ociosos y
caducos de la UCLV tiene valor de leverage mayor que el valor crítico. Estos compuestos son el
2,2'-bipyridine (h=0.3919), 1,10-phenanthroline (h=0.3392), benzidine (h=0.1364), diethyl
sulfate (h=0.1278) y 1-bromonaphthalene (h=0.1416); debido a que se encuentran fuera del DA
del modelo no-estocástico las predicciones para estos compuestos empleando este modelo no son
fiables y por tanto se excluyen del análisis ulterior. Por otra parte, tomando en cuenta los
resultados mostrados en la Figura 3.6 se evidencia que también cinco compuestos presentaron un
valor de h>h* y como se encuentran por tanto fuera del DA del modelo no fue tomada en
consideración la predicción de la toxicidad de los mismos por el modelo estocástico. Para este
modelo los compuestos fuera del dominio de aplicación fueron: diethyl sulfate (h=0.4598),
diethyl carbonate (h=0.1243), 2,2'-bipyridine (h=0.1032), diethyl malonate (h=0.1011), y
methanesulfonyl chloride (h=0.0996)
Resultados y Discusión 41
Yunier Perera Sardiñas−Predicción de la toxicidad acuática de compuestos orgánicos en Poecilia reticulata
Ploteo de los Ociosos y Caducosen el DA del modelo no-estocastico
SE Ociosos y/o Caducos
0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40
Leverage
-4
-3
-2
-1
0
1
2
3
4
-4
-3
-2
-1
0
1
2
3
4
Figura 3.5. Ploteo de los reactivos Ociosos y/o Caducos en el dominio de Aplicación del Modelo no-estocástico
Ploteo de Ociosos y Caducosen el DA del modelo estocastico
SE Ocioso y/o Caducos
0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50
Leverage
-4
-3
-2
-1
0
1
2
3
4
-4
-3
-2
-1
0
1
2
3
4
Figura 3.6. Ploteo de los reactivos Ociosos y/o Caducos en el dominio de Aplicación del Modelo no-estocástico
Resultados y Discusión 42
Yunier Perera Sardiñas−Predicción de la toxicidad acuática de compuestos orgánicos en Poecilia reticulata
Si tenemos en cuenta que:
Mayores valores de LC50 indican menor toxicidad y a su vez, menores valores de LC50 indican
mayor toxicidad.
Entonces, el valor LC50 que se obtiene del modelo, traducido en términos propiamente dicho de
toxicidad, no solamente permite establecer un orden de toxicidad sino que además, permite
estimar el posible impacto que tendrían estas sustancias al ser incorporadas al medio,
específicamente el acuático, fundamentalmente porque este tipo de medio es uno de los más
sensibles a la acción de las sustancias químicas. Considerando el medio acuático la base o factor
común en muchos ecosistemas, predecir el impacto sobre el mismo de los compuestos ocioso y
caducos de la UCLV, posibilitará tener una idea de la magnitud del desajuste ambiental que se
produciría si alguna o varias de estas sustancias, son vertidas al medio ambiente sin tratamiento
previo por una incorrecta disposición final o accidente
En el Anexo 3 se han ordenado en orden descendiente de toxicidad los reactivos ociosos y/o
caducos mostrados en la Tabla 3.2 con respecto al benceno, tanto para las predicciones del
modelo no-estocástico como las del modelo estocástico. Mas del 50% de los reactivos, a los
cuales se les predijo la toxicidad, se encuentran según el modelo estocástico ubicados por encima
del benceno, para el cual se reporta un valor de log(LC50)= 2.910 en P. promelas (experimental).
Por otra parte el porcentaje de los reactivos predichos por el modelo basado en índices no-
estocásticos que presentaron mayor toxicidad que el benceno estuvo muy cerca del 50%. Este
orden de toxicidad da una idea del carácter tóxico y el riesgo potencial que pueden ofrecer los
reactivos ociosos y caducos de la UCLV hacia el medio acuático.
Los resultados obtenidos en este trabajo son aun preliminares y se necesitan estudios más
profundos para corroborarlos. Sin embargo, estos resultado nos colocan en las puertas de un
nuevo universo de posibilidades para la estimación del riesgo ecotoxicológico, así como también
abren un nuevo campo el que podemos aplicar los estudios teóricos basados en estudios de
toxicidad (QSTR) con el objetivo de ahorrar recursos y aportar una nueva herramienta para la
toma de decisiones en estudios ambientales.
Yunier Perera Sardiñas−Predicción de la toxicidad acuática de compuestos orgánicos en Poecilia reticulata
CONCLUSIONES
Se conformo una base de datos de toxicidad acuática de compuestos químicos sobre
el pez Poecilia Reticulata a partir de reportes en la literatura.
Se desarrollaron dos modelos QSTR que permiten predecir la toxicidad acuática de
compuestos orgánicos sobre el pez P. Reticulata.
Los modelos obtenidos fueron validados mediante procesos de validación tanto
interna como externa y se determino además el dominio de aplicación de ambos
modelos.
Se tamizó una muestra de los reactivos de la base de datos de productos ociosos y
caducos de la UCLV y fueron ordenados de acuerdo a la toxicidad predicha por los
modelos para cada compuesto.
Yunier Perera Sardiñas−Predicción de la toxicidad acuática de compuestos orgánicos en Poecilia reticulata
RECOMENDACIONES
Desarrollar modelos QSTR empleando otras familias de descriptores implementados
en el software TOMOCOMD-CARDD.
Desarrollar estudios experimentales que permitan la corroboración experimental de
las predicciones teóricas realizadas.
Emplear las predicciones realizadas sobre los productos ociosos y caducos de la
UCLV como una guía para la toma de decisiones en cuanto a su manejo y
eliminación.
Referencias Bibliográficas g
Yunier Perera Sardiñas−Predicción de la toxicidad acuática de compuestos orgánicos en Poecilia reticulata
REFERENCIAS BIBLIOGRÁFICAS
1. Hoover KR, Acree WE, Abraham MH. Chemical Toxicity Correlations for Several
Fish Species Based on the Abraham Solvation Parameter Model. Chem Res
Toxicol2005;18:1497-505.
2. Verhaar HJM, Urrestarazu E, Hermens JLM. Classifying environmental pollutants. 2:
separation of class 1 (baseline toxicity) and class 2 (‘polar narcosis’) type compounds based
on chemical descriptors. J Chemomet1996;10:149-62.
3. Levin SA, Harwell MA, Nelly JR, K.D. K. Ecotoxicology: problems and approaches.
. New York: Springer-Verlag; 1989.
4. Gutiérrez PA, Ongay JP, Vercesi ML. Gerencia Ambiental2000;65:394-9.
5. Ausley LW. Reflection on whole effluent toxicity: The pellston workshops. Environ
Toxicol Chem2000;190(1):1-2.
6. Mitchell JAK, Burgess JE, Stuetz RM. Developments in ecotoxicity testing. Revs
Environ Sci BioTech2002;1:169-98.
7. JingWen C, XueHua L, HaiYing Y, YaNan W, XianLiang Q. Progress and
perspectives of quantitative structure-activity relationships used for ecological risk
assessment of toxic organic compounds. Sci China Ser B-Chem 2008;51:593-606.
8. Dimitrov S, Breton R, MacDonald D, Walker JD, Mekenyan O. Quantitative
prediction of biodegradability, metabolite distribution and toxicity of stable metabolites. SAR
and QSAR in Environmental Research2002;13(3):445 - 55.
9. Ivanciuc T, Ivanciuc O, Klein DJ. Posetic Quantitative Superstructure/Activity
Relationships (QSSARs) for Chlorobenzenes. J Chem Inf Model2005;45(4):870-9.
10. Casalegno M, Benfenati E, Sello G. An Automated Group Contribution Method in
Predicting Aquatic Toxicity: The Diatomic Fragment Approach. Chem Res
Toxicol2005;18(4):740-6.
11. Mazzatorta P, Benfenati E, Neagu CD, Gini G. Tuning Neural and Fuzzy-Neural
Networks for Toxicity Modeling. J Chem Inf Comput Sci2003;43(2):513-8.
12. OECD. Guidance Document on the Validation of (Quantitative)Structure-Activity
Relationships [(Q)SAR] Models. No. 69, OECD, Paris. . (2007). p.
<http://www.oecd.org/document/30/0,3343,en_2649_34377_1916638_1_1_1_1,00.html>
Referencias Bibliográficas g
Yunier Perera Sardiñas−Predicción de la toxicidad acuática de compuestos orgánicos en Poecilia reticulata
accessed July 2008.
13. Marrero-Ponce Y, Cabrera M, A., Romero V, Ofori E, Montero LA. Total and Local
Quadratic Indices of the “Molecular Pseudograph’s Atom Adjacency Matrix”. Application to
Prediction of Caco-2 Permeability of Drugs. Int J Mol Sci 2003;4:512-36.
14. Marrero-Ponce Y. Total and Local Quadratic Indices of the Molecular Pseudograph´s
Atom Adjacency Matrix: Applications to the Prediction of Physical Properties of Organic
Compounds. Molecules2003;8:687-726.
15. Marrero-Ponce Y. Linear indices of the "molecular pseudograph's atom adjacency
matrix": definition, significance-interpretation, and application to QSAR analysis of flavone
derivatives as HIV-1 integrase inhibitors. J Chem Inf Comput Sci2004 Nov-Dec;44(6):2010-
26.
16. Marrero-Ponce Y, Castillo-Garit JA, Torrens F, Romero-Zaldivar V, Castro E. Atom,
Atom-Type, and Total Linear Indices of the ¨Molecular Pseudograph´s Atom Adjacency
Matrix¨: Application to QSPR/QSAR Studies of Organic Compounds. Molecules
2004;9:1100-23.
17. Marrero-Ponce Y. Total and local (atom and atom type) molecular quadratic indices:
significance interpretation, comparison to other molecular descriptors, and QSPR/QSAR
applications. Bioorg Med Chem 2004; 12: 6351-69.
18. Marrero Ponce Y, Meneses-Marcel A, Castillo Garit JA, Machado-Tugores Y,
Escario JA, Barrio AG, et al. Predicting antitrichomonal acitivity: A computational screening
using atom-based bilinear indices and experimental proofs. Bioorg Med Chem2006;14:6502-
24.
19. Marrero-Ponce Y, Cabrera MA, Romero-Zaldivar V, Bermejo M, Siverio D, Torrens
F. Prediction of Intestinal Epithelial Transport of Drug in (Caco-2) Cell Culture from
Molecular Structure using in silico Approaches During Early Drug Discovery. Internet
Electron J Mol Des2005;4 124-50.
20. Marrero-Ponce Y, Castillo-Garit JA, Olazabal E, Serrano HS, Morales A, Castañedo
N, et al. TOMOCOMD-CARDD, a novel approach for computer-aided 'rational' drug design:
I. Theoretical and experimental assessment of a promising method for computational
screening and in silico design of new anthelmintic compounds. J Comput-Aided Mol
Design2004 Oct;18(10):615-34.
Referencias Bibliográficas g
Yunier Perera Sardiñas−Predicción de la toxicidad acuática de compuestos orgánicos en Poecilia reticulata
21. Marrero-Ponce Y, Castillo-Garit JA, Olazabal E, Serrano HS, Morales A, Castanedo
N, et al. Atom, atom-type and total molecular linear indices as a promising approach for
bioorganic and medicinal chemistry: theoretical and experimental assessment of a novel
method for virtual screening and rational design of new lead anthelmintic. Bioorg Med
Chem2005 Feb 15;13(4):1005-20.
22. Marrero-Ponce Y, Iyarreta-Veitia M, Montero-Torres A, Romero-Zaldivar C, Brandt
CA, Avila PE, et al. Ligand-based virtual screening and in silico design of new antimalarial
compounds using nonstochastic and stochastic total and atom-type quadratic maps. J Chem
Inf Model2005 Jul-Aug;45(4):1082-100.
23. Castillo-Garit JA, Marrero-Ponce Y, Torrens F. Atom-based 3D-chiral quadratic
indices. Part 2: prediction of the corticosteroid-binding globulinbinding affinity of the 31
benchmark steroids data set. Bioorg Med Chem2006 Apr 1;14(7):2398-408.
24. Castillo-Garit JA, Marrero-Ponce Y, Torrens F, García-Domenech R. Estimation of
ADME Properties in Drug Discovery: Predicting Caco-2 Cell Permeability Using Atom-
Based Stochastic and Non-Stochastic Linear Indices. J Pharm Sci2008;97:1946-76.
25. Castillo-Garit JA, Marrero-Ponce Y, Torrens F, Rotondo R. Atom-based Stochastic
and non-Stochastic 3D-Chiral Bilinear Indices and their Applications to Central Chirality
Codification. J Mol Graphics Model2007;DOI:10.1016/j.jmgm.2006.09.007.
26. Marrero-Ponce Y, Montero-Torres A, Zaldivar CR, Veitia MI, Perez MM, Sanchez
RN. Non-stochastic and stochastic linear indices of the 'molecular pseudograph's atom
adjacency matrix': application to 'in silico' studies for the rational discovery of new
antimalarial compounds. Bioorg Med Chem2005 Feb 15;13(4):1293-304.
27. Marrero-Ponce Y, Castillo-Garit JA. 3D-chiral Atom, Atom-type, and Total Non-
stochastic and Stochastic Molecular Linear Indices and their Applications to Central
Chirality Codification. J Comput-Aided Mol Design2005 Jun;19(6):369-83.
28. Marrero-Ponce Y, Medina R, Castro EA, de Armas R, González H, Romero V, et al.
Protein Quadratic Indices of the ¨Macromolecular Pseudograph´s α-Carbon Atom Adjacency
Matrix¨. 1. Prediction of Arc Repressor Alanine-mutant´s Stability. Molecules 2004;9 1124-
47.
29. Marrero-Ponce Y, Nodarse D, González HD, Ramos de Armas R, Romero-Zaldivar
V, Torrens F, et al. Nucleic Acid Quadratic Indices of the ¨Macromolecular Graph´s
Referencias Bibliográficas g
Yunier Perera Sardiñas−Predicción de la toxicidad acuática de compuestos orgánicos en Poecilia reticulata
Nucleotides Adjacency Matrix¨. Modeling of Footprints after the Interaction of
Paromomycin with the HIV-1 Ψ-RNA Packaging Region. Int J Mol Sci 2004;5:276-93.
30. Marrero-Ponce Y, Medina-Marrero R, Castillo-Garit JA, Romero-Zaldivar V, Torrens
F, Castro EA. Protein linear indices of the 'macromolecular pseudograph alpha-carbon atom
adjacency matrix' in bioinformatics. Part 1: prediction of protein stability effects of a
complete set of alanine substitutions in Arc repressor. Bioorg Med Chem2005 Apr
15;13(8):3003-15.
31. Marrero Ponce Y, Castillo Garit JA, Nodarse D. Linear indices of the
'macromolecular graph's nucleotides adjacency matrix' as a promising approach for
bioinformatics studies. Part 1: prediction of paromomycin's affinity constant with HIV-1 psi-
RNA packaging region. Bioorg Med Chem2005 May 16;13(10):3397-404.
32. Cabrera J, Solano,.Y. Fertilidad y fecundidad en Poeciliopsis turrubarensis (Pisces:Poeciliidae). Rev
BiolTrop1995.; 43::317-20.
33. Zúñiga GE, editor. Especies potencialmente cultivables para ornato (peces,plantas e
invertebrados). Memorias Primer Encuentro Nacional de Acuariofilia; 1997.;
México,D.F.México.
34. Gómez-Márquez L, Guzmán-Santiago, J.L. &A. Olvera-Soto. Reproducción y
crecimiento de Heterandria bimaculata (Cyprinodontiformes: Poeciliidae)en la Laguna "El
Rodeo ",Morelos, México. RevBiolTrop1999.;47:581-92.
35. Urriola Hernández M, Cabrera Peña, J., Protti Quesada, M. Composición,crecimiento
e índice de condición de una población de Poecilia reticulata (Pisces:Poeciliidae),en un
estanque en Heredia, Costa Rica. RevBiolTrop2004.;52::157-62.
36. Morales ZM. Aquaguía. Revista especializada en acuariofilia y otras mascotas
Naucalpan, México1996.
37. Devezé Murillo P, Reta Mendiola JL, Sánchez Luna B. Cultivo de Poecilia reticulata
(Pisces:Poecilidae) en cuerpos de agua tropicales,Veracruz,México. Rev biol trop 2004;52
951-8.
38. Breden F. Guppies. Curr Biol2006;16:R865-R6.
39. Adams SM, M.S. Greeley. . Ecotoxicological indicators of water quality: using
multi-response indicators to assess the health of aquatic ecosystems. Water, Air and Soil
Pollution 2000.;123:103-15. .
Referencias Bibliográficas g
Yunier Perera Sardiñas−Predicción de la toxicidad acuática de compuestos orgánicos en Poecilia reticulata
40. Iannacone J, Alvariño, L. . Selectividad del insecticida cartap empleando bioensayos
con organismos no destinatarios. Ecología Aplicada2005; 4::91-104.
41. Iannacone J, Alvariño, L. . Ecotoxicidad aguda del zinc sobre el ``guppy'' Poecilia
reticulata. Wiñay Yachay 1998.;2(3):: 67-74.
42. Hawkins WE, Walker,W.W., Fournie, J.W., Manning, C.S., Krol, R.M. . Use of the
Japanese medaka (Oryzias latipes) and guppy (Poecilia reticulata) in carcinogenesis testing
under national toxicology program protocols. . Toxicol Pathol 2003. ; 31(1):88-91.
43. Hinton DE, Kullman, S.W., Hardman, R.C., Volz, D.C., Chen, P.J., Carney, M.,
Bencic, D.C. . Resolving mechanisms of toxicity while pursuing ecotoxicological relevance?
. Mar Pollut Bull2005.; 51,: 635-48.
44. Moore MN. Biocomplexity: the post-genome challenge in ecotoxicology. . Aquat
Toxicol 2002. ;59:1-15.
45. Wittbrodt J, Shima, A., Schartl, M. . Medaka-a model organism from the far East.
Nat Rev Genet2002. ;3,: 53-64.
46. Iannacone J, Alvariño, L., Gutierrez. A.R. . Cinco ensayos ecotoxicológicos para
evaluar metales pesados en el agua dulce. Boletín de la Sociedad Quimica del Perú 1999.;65::
30-45.
47. Dodd A, Curtis, P.M., Williams, L.C., Love, D.A., . , . Zebrafish: bridging the gap
between development and disease. Hum. Mol. Genet. 2000;9:2443-9.
48. Castro BB, Sobral, O., Guilhermino, L., Ribeiro, R. . An in situ bioassay integrating
individual and biochemical responses using small fish species. Ecotoxicology2004;13:667-
81.
49. Wolf JC, Dietrich, D.R., Friederich, U., Caunter, J., Brown, A.R. . Qualitative and
quantitative histomorphologic assessment of fathead minnow Pimephales promelas gonads as
an endpoint for evaluating endocrine-active compounds: a pilot methodology study. Toxicol
Pathol2004;32:600- 12.
50. Volz DC, Bencic, D.C., Hinton, D.E., Law, J.M., Kullman, S.W. . 2,3,7,8-
Tetrachlorodibenzo-p-dioxin (TCDD) induces organ-specific differential gene expression in
male Japanese medaka (Oryzias latipes). . Toxicol Sci2005; 85:572-84.
Referencias Bibliográficas g
Yunier Perera Sardiñas−Predicción de la toxicidad acuática de compuestos orgánicos en Poecilia reticulata
51. Carter AJ, Wilson, R.S. . Improving sneaky-sex in a low oxygen environment:
reproductive and physiological responses of male mosquito fish to chronic hypoxia. J Exp
Biol2006. ; 209: 4878-84.
52. Kissling GE, Bernheim, N.J., Hawkins, W.E., Wolfe, M.J., Jokinen, M.P., Smith,
C.S., Herbert, R.A., Boorman, G.A., , . The utility of the guppy (Poecilia reticulata) and
medaka (Oryzias latipes) in evaluation of chemicals for carcinogenicity. Toxicol Sci 2006.;
92:143-56.
53. Brosnan SF, Earley, R.L., Dugatkin, L.A. . Observational learning and predator
inspection in guppies (Poecilia reticulata). . Ethology 2003.;109:: 823-33.
54. Croft DP, Albanese, B., Arrowsmith, B.J., Botham,M., Webster, M., Krause, J. . Sex-
biased movement in the guppy (Poecilia reticulata). . Oecologia2003.;137:: 62-8.
55. Grether GF, Kasahara, S., Kolluru, G.R., Cooper, E.L. . Sex-specific effects of
carotenoid intake on the inmunological response to allografts in guppies (Poecilia reticulata).
. Proceedings of the Royal Society of London B2003.;271:: 45-9.
56. Selvi M, Sarikaya, R., Erkoc, F. . Acute behavioral changes in the guppy (Poecilia
reticulata) exposed to temephos. G.U. . Journal of Science2004.;17: :15-9.
57. Henk J. M. , Ramos EU, M. JL, Hermens. Classifying environmental pollutants. 2:
separation of class 1 (baseline toxicity) and class 2 (‘polar narcosis’) type compounds based
on chemical descriptors. J. Chemom. 1996;10:149-62.
58. Seward JR, Hamblen EL, Schultz TW. Regression comparisons of Tetrahymena
pyriformis and Poecilia reticulata toxicity. Chemosphere 2002;47 93-101.
59. Katritzky AR, Tatham DB. Theoretical Descriptors for the Correlation of Aquatic
Toxicity of Environmental Pollutants by Quantitative Structure-Toxicity Relationships. J
Chem Inf Comput Sci 2001;41 1162-76.
60. Roy K, Ghosh G. QSTR with Extended Topochemical Atom Indices. 2. Fish Toxicity
of Substituted Benzenes. J Chem Inf Comput Sci 2004;44:559-67.
61. Marrero-Ponce Y, Huesca-Guillen A, Ibarra-Velarde F. Quadratic indices of the
¨molecular pseudograph´s atom adjacency matrix¨ and their stochastic forms: a novel
approach for virtual screening and in silico discovery of new lead paramphistomicide drugs-
like compounds. J Mol Struct (Theochem)2005; 717:67-79.
62. Noriega T. Álgebra. Havana, Cuba: Ed. Revolucionaria; 1990.
Referencias Bibliográficas g
Yunier Perera Sardiñas−Predicción de la toxicidad acuática de compuestos orgánicos en Poecilia reticulata
63. Maltsev AI. Fundamentos del Álgebra Lineal. Moscow: Mir; 1976.
64. Garrido L, G. Introduccion a la Matemáticas Discretas. Havana, Cuba: Ed.,
Revolucionaria; 1990.
65. Ross KA, Wright CRB. Matemáticas discretas. Mexico D.F.: Prentice Hall
Hispanoamericana; 1990.
66. Varela M, V., Suárez L, Castro M, Baldoquín G. Algebra Lineal2002.
67. Browder A. Mathematical Analysis. An Introduction New York: Springer-Verlag;
1996.
68. Axler S. Linear Algebra Done Right. New York: Springer-Verlag; 1996.
69. Randic M. J Math Chem1991;7:155.
70. van de Waterbeemd H. Chemometric Methods in Molecular Design (Methods and
Principles in Medicinal Chemistry). van de Waterbeemd H, editor. New York: John Wiley &
Sons; 1995.
71. Alzina RB. Introduccion conceptual al análisis multivariable. Un enfoque informatico
con los paquetes SPSS-X, BMDP, LISREL Y SPAD. Barcelona: PPU, SA; 1989.
72. Norusis MJ. Advanced Statistics Guide. SPSS-X. New York: McGraw-Hill; 1985.
73. Belsey DA, Kuh E, Welsch RE. Regression Diagnostics. New York: Wiley; 1980.
74. STATISTICA version. 6.0 Statsoft I. Tulsa.
75. Basak SC, Balaban AT, Grunwald GD, Gute BD. J Chem Inf Comput Sci
2000;40:891.
76. Patel H, Cronin MTD. J Chem Inf Comput Sci2001;41:1228.
77. Cronin MT, Schultz TW. Pitfalls in QSAR. J Mol Struct (Theochem) 2003;622:39-
51.
78. Egan WJ, Morgan SL. Outlier detection in multivariate analytical chemical data. Anal
Chem1998;70:2372-9.
79. Wold S, Erikson L. Statistical Validation of QSAR Results. Validation Tools. In: van
de Waterbeemd H, editor. Chemometric Methods in Molecular Design. Weinheim: VCH
Publishers; 1995. p. 309-18.
80. Wold S. Technometrics1978;20:397.
81. Stone M. J Roy Stat Soc1974;36:111.
82. Shao J. J Amer Stat Assoc1993;88:486.
Referencias Bibliográficas g
Yunier Perera Sardiñas−Predicción de la toxicidad acuática de compuestos orgánicos en Poecilia reticulata
83. Rose K, Hall LH, Kier LB. Modeling blood-brain barrier partitioning using the
electrotopological state. J Chem Inf Comput Sci2002 May-Jun;42(3):651-66.
84. Girones X, Gallegos A, Carbo-Dorca R. Modeling antimalarial activity: application
of Kinetic Energy Density Quantum Similarity Measures as descriptors in QSAR. J Chem Inf
Comput Sci2000 Nov-Dec;40(6):1400-7.
85. Fan Y, Shi LM, Kohn KW, Pommier Y, Weinstein JN. Quantitative structure-
antitumor activity relationships of camptothecin analogues: cluster analysis and genetic
algorithm-based studies. J Med Chem2001 Sep 27;44(20):3254-63.
86. Suzuki T, Ide K, Ishida M, Shapiro S. Classification of environmental estrogens by
physicochemical properties using principal component analysis and hierarchical cluster
analysis. J Chem Inf Comput Sci2001 May-Jun;41(3):718-26.
87. Recanatini M, Cavalli A, Belluti F, Piazzi L, Rampa A, Bisi A, et al. SAR of 9-
amino-1,2,3,4-tetrahydroacridine-based acetylcholinesterase inhibitors: synthesis, enzyme
inhibitory activity, QSAR, and structure-based CoMFA of tacrine analogues. J Med
Chem2000 May 18;43(10):2007-18.
88. Morón JA, Campillo M, Perez V, Unzeta M, Pardo L. Molecular determinants of
MAO selectivity in a series of indolylmethylamine derivatives: biological activities, 3D-
QSAR/CoMFA analysis, and computational simulation of ligand recognition. J Med
Chem2000 May 4;43(9):1684-91.
89. Golbraikh A, Tropsha A. J Comp Aided Mol Des2002;16:357.
90. Golbraikh A, Tropsha A. Beware of q2! J Mol Graph Model2002 Jan;20(4):269-76.
91. Norinder UJ. Chemometrics1996;10:95.
92. Kubinyi H, Folkers G, Martin YC. Persp Drug Disc Des1998;12.
93. Eriksson L, Jaworska J, Worth AP, Cronin MT, McDowell RM, Gramatica P.
Methods for reliability and uncertainty assessment and for applicability evaluations of
classification- and regression-based QSARs. Environ Health Perspect2003
Aug;111(10):1361-75.
94. Papa E, Villa F, Gramatica P. Statistically validated QSARs, based on theoretical
descriptors, for modeling aquatic toxicity of organic chemicals in Pimephales promelas
(fathead minnow). J Chem Inf Model2005 Sep-Oct;45(5):1256-66.
Referencias Bibliográficas g
Yunier Perera Sardiñas−Predicción de la toxicidad acuática de compuestos orgánicos en Poecilia reticulata
95. Atkinson AC. Plots, Transformations, and Regression. Oxford (UK): Clarendon
Press; 1985.
96. Gramatica P. Principles of QSAR models validation: internal and external. QSAR
Comb Sci2007;26(5):694-701.
97. Sijm DTHM, Schipper MA, Opperhuizen A. Toxicokinetics of halogenated benzenes
in fish: Lethal body burden as a toxicological end point. Environ Toxicol
Chem1993;12,:1117-27.
98. Ramos EU, Vaes, W.H.J., Verhaar, H.J.M. and Hermens, J.L.M. . Quantitative
structure-activity relationships for the aquatic toxicity of polar and
nonpolar narcotic pollutants. J Chem Inf Comput Sci 1998;38, :845-52.
99. Pesticide Area Network North America. 2005; Available from:
http://www.pesticideinfo.org/Index.html.
100. Di Marzio W, Galassi S, Todeschini R, Consolaro F. Traditional versus WHIM
molecular descriptors in QSAR approaches applied to fish toxicity studies. .
Chemosphere2001;44, :401-6.
101. Marrero-Ponce Y, Romero V. TOMOCOMD software. TOMOCOMD (TOpological
MOlecular COMputer Design) for Windows, version 1.0 is a preliminary experimental
version; in future a professional version will be obtained upon request to Y. Marrero:
[email protected]; [email protected]. Central University of Las Villas.2002.
102. Draper NR, Smith H. Applied Regression Analysis. La Habana.: Editora
Revolucionaria; 1980.
103. Gonzalez MP, Diaz HG, Cabrera MA, Ruiz RM. A novel approach to predict a
toxicological property of aromatic compounds in the Tetrahymena pyriformis. Bioorg Med
Chem2004 Feb 15;12(4):735-44.
Anexo 1. Estructura de los compuestos de la serie de entrenamiento.
OHmethanol
HO
Ethanol
HO
2-propanol
HO1-Butanol
HO
Isobutanol
OH
t-Butanol
HO
3-Pentanol
HO1-Octanol
HO
1-Nonanol
HO
1-Decanol OH
1-Undecanol
OHOH
2-Methyl-2,4-pentanediol
HO
Cyclohexanol OHCl
ClCl
2.,2,2-Trichloroethanol
OAcetone
O
3-Pentanone O
5-Nonanone
O
6-Methyl-5-hepten-2-one O
Acetophenone
O
3,3-Dimethyl-2-butanone
OBenzophenone
O
Cyclohexanone
O
Dipentylether
O
OHO
2-Hydroxy-4-methoxyacetophenone
ClCl
ClCl
Tetrachloromethane
Cl Cl
Cl
1,2,4-Trichlorobenzene Cl
Cl3,4-Dichlorotoluene
N+
O
-O
Nitrobenzene
N+O
O-
2-Nitrotoluene
N+
O
-O
4-Nitrotoluene
N+
O
-O
2,3-Dimethylnitrobenzene
HO
Phenol
HO
2-Methylphenol
HO
4-Methylphenol
OH
2,4-Dimethylphenol OH
3,4-Dimethylphenol HO
2,3,6-Trimethylphenol
OH
4-Ethylphenol
HO
4-t-Butylphenol
OH
2-t-Butyl-4-methylphenol
HO
4-n-Pentylphenol
HO
4-t-Pentylphenol
OH
2-Allylphenol
OH
2-Phenylphenol
ClHO
4-Chlorophenol
Cl
OH4-Chloro-3-methylphenol
Cl OH
4-Chloro-3,5-dimethylphenol
O OH
4-Methoxyphenol
O
OH
4-Phenoxyphenol
N
Quinoline
H2N
Aniline
H2N
2-Methylaniline
H2N
4-Methylaniline
N
N,N-dimethylaniline NH2
2-Ethylaniline
NH2
4-Ethylaniline
NH2
4-Butylaniline NH2
2,6-Diisopropylaniline
H2N
Cl
2-Chloroaniline
H2N Cl
Cl
2,5-Dichloroaniline
NH2O
3-Benzyloxyaniline
NH2
O4-Hexyloxyaniline
NH2
N+O
O-
2-Nitroaniline
H2N
N+O
O-
3-Nitroaniline
H2N Cl
4-Chloroaniline
NH2
Cl Cl
2,4-Dichloroaniline
H2N Cl
ClCl
2,3,4-Trichloroaniline
H2N Br
4-Bromoaniline
alfa,alfa,alfa,4Tetrafluoro-3-methylaniline
NH2
F
F
F
F
NH2
F
FF
F
Alfa,alfa,alfa,4-Tetrafluoro-2-methylaniline
NF
F
F F
F
Pentafluoroaniline
NH2
N+
O
O-O
4-Ethoxy-2-nitroaniline
Cl
Cl
N+
O
-O
3,5-Dichloronitrobenzene
Cl
N+
O
-O
2-chloronitrobenzene
ClN+
O
-O
4-Chloronitrobenzene
Cl
Cl
N+
O
-O
2,4-Dichloronitrobenzene
Cl
Cl
N+
O
-O
2,5-Dichloronitrobenzene
N+O
-O
Cl
2-Chloro-6-nitrotoluene
N+
O
-ON+
O
O-
2,4-Dinitrotoluene
OButyraldehyde
OValeraldehyde
OHexylaldehyde
O
Heptylaldehyde
O
Isobutyraldehyde
O
2-Methylbutyraldehyde Cl
Cl
Cl
trichloroethene
HOO
OOH
triethyleneglycol HO OH1,3-dihydroxybenzene
H2N
1,2-dimethylpropylamine
NH2
1-adamantaneamine
H2N
1-methylheptylamine
NH2
2,2-dimethylpropylamine
NH2
ClCl
Cl
Cl2,3,4,5-tetrachloroaniline
ClCl
Cl
Cl OH2,3,4,5-tetrachlorophenol
Cl Cl
ClCl
HO
2,3,5,6-tetrachlorophenol
Cl
Cl
Cl
HO2,3,5-trichlorophenol
H2N
Cl Cl
ClCl
2,3,5,6-tetrachloroaniline
H2N
Cl Cl
Cl
2,3,6-trichloroaniline
Cl
Cl Cl
OH
2,4,5-trichlorophenol
Br
Br
Br
OH
2,4,6-tribromophenol Cl
Cl
Cl
OH
2,4,6-trichlorophenol
Cl Cl
OH
2,4-dichlorophenol
Cl
Cl
HO2,5-dichlorophenol
HO
2,6-dimethylphenol
NH2HO
2-aminoethanol Cl
OH
2-chloro-4-methylphenol Cl
1-chlorobutane Cl
Cl
1,1-dichloroethane
ClCl
Cl
1,1,1-trichloroethane ClCl
ClCl
1,1,2,2-tetrachloroethane
ClCl
1,2-dichloroethane
HOOH
1,2-ethanediol Cl
Cl
Cl1,2,3-trichlorobenzene
Cl
Cl
Cl1,2,3-trichloropropane
Cl
ClCl
Cl
1,2,3,4-tetrachlorobenzene
Cl
Cl Cl
Cl
1,2,4,5-tetrachlorobenzene
Cl Cl
1,3-dichlorobenzene
ClCl
1,4-dichlorobenzene
ClCl
1,3-dichloropropane
OHO
2-ethoxyethanol O
HO
2-methoxyethanol Cl Cl2,4-dichlorotoluene
Cl
Cl Cl2,4,5-trichlorotoluene
Cl
4-chlorotoluene
002
benzene
OH
HO
butyldigol
ClCl
dichloromethane o-xylene
p-xylene
Cl Cl
Cl
ClClpentachlorobenzene
ClCl
Cl
Cl Cl
pentachloroethane
HO
Cl
2-chlorophenol
H2NO
2-methoxyethylamine
H2N
3,3-dimethylbutylamine
OH
OH
ClCl
Cl
Cl3,4,5,6-tetrachloro-2-hydroxyphenol
HO O
O Cl
ClCl
3,4,5-trichloro-2,6-dimethoxyphenol
HO
O Cl
ClCl
3,4,5-trichloro-2-methoxyphenol
HO
Cl
Cl
Cl
3,4,5-trichlorophenol
OH
Cl
Cl
3,5-dichlorophenol
HO
N+O
O-
3-nitrophenol
HO NHO
4-(n-methoxymethyl)aminophenol
OH
N+
O
O-
H2N
4-amino-2-nitrophenol
H2N4-decylaniline
PO OSO Br
Cl
ClBromophos
OH
4-n-butylphenol
NH2N+
O
-O
4-nitroaniline
N+O
-OOH
4-nitrophenol HO
4-nonylphenol NH2
4-octylaniline
NN
OH
4-phenylazophenol
H2Namylamine
H2N
benzylamine H2N
butylamine
H2N
decylamine H2N
dodecylamine
NH2
ethylamine H2N
hexylamine
H2Noctylamine
H2N
propylamine
H2N
t-octylamine H2N
tridecylamine
OOHO
2-(2-ethoxyethoxy)ethanol
OO
2,6-dimethoxytoluene
O
OH
2-phenoxyethanol
OHO
3-furanmethanol
O
dibutyl ether
Odiisopropyl ether
O
diphenyl ether O
furan
Cl
Cl
Cl
Cl
Cl
Cl
hexachloroethane
O
t-butylmethyl ether
O
tetrahydrofuran O
OHO
2-(2-butoxyethoxy)ethanol
O
O1,2,7,8-diepoxyoctane
O
1,2-epoxybutane
O
1,2-epoxydecane O
1,2-epoxyhexane
Cl
1-chloro-2-butene
Cl
Cl
2,3-dichloropropene
O
2-ethylbutanal
N
N
O
OP
O
O
S
Etrinfos
OHN+OO-
N+OO-
2-s-butyl-4,6-dinitrophenol
Cl3-chloro-1-butene
O
3-cyclohexene-1-carboxaldehyde
ClCl
Cl OPO
OS
Ronnel
Cl
allyl chloride
O
benzaldehyde
Cl
benzyl chloride
C OH
Cl
Cl
Proclonol
O
decanal
Oethanal
OHO
glycidol
N
O
O
CH2
S PS
OO
Phosmet
SH
OO
PO
S
O
Phenthoate
OP
N+O
O-
O
O
SCH3
CH3Methylparathion
OH
ClCl
Cl
Cl Cl
pentachlorophenol
O
Cl
CN
POO
S
Methylisocyanothion
S
NN
O
OH3C
S PO
OS
CH3CH3
Methidathion
Opropylene oxide
O
styrene oxide OH
OH4-hexylresorcinol
OH
2-Methyl-2-propanol
O
Methyl tert-butyl ether I
Cl
Cl
OP
OS
O
Iodofenphos Br
Br
1,2-Dibromobenzene
Ethylbenzene
Isopropylbenzene
NAcetonitrile
NS
S SN
S
Disulfiram
NO2
P
Cl
OSO
Dicapthon
O
CN
POS
OCH3
CH3
Cyanophos
Butylbenzene
C
CH2
CHCH2
H2C
CH2
H3C
CH2H3C
C
CH2
CH3
Thiomedon
OO
BrBr
O
N
decamethrin
CH3
O
OCH3H3CO
H3CO
2,3,4-trimethoxyacetonone
Cl
ClO
2,4-dichloroacetophenone
Cl Cl
alpha, alpha,-Dichloro-m-xylene
N
O
NN
SPS
O O
Azinphos-methyl-2D-skeletal
Anexo 2. Estructura de los compuestos de la serie de predicción.
HO
1-Hexanol
HO
1-Dodecanol
OOH
2-Butoxyethanol
O
2-Butanone
O
2-Octanone
O
2-Decanone
O
3-Methyl-2-butanone
O
4-Methyl-2-pentanone
Cl
Chlorobenzene
Cl
Cl
1,2-Dichlorobenzene
Cl
Cl
Cl
1,3,5-Trichlorobenzene
Toluene
N+O
-O
Cl
4-Chloro-2-nitrotoluene
N+O
O-
3-Nitrotoluene
N+
O
-O
3,4-Dimethylnitrobenzene
OH3-Methylphenol
OH
4-Propylphenol
OH
1-naphthol
O OH3-Methoxyphenol
NH2
3-Methylaniline
NH23-Ethylaniline
NH2Cl
3-Chloroaniline
H2N
Cl
Cl
3,5-Dichloroaniline
NH2
Cl
Cl
3,4-Dichloroaniline
NH2Cl
Cl Cl
2,4,5-Trichloroaniline
H2N N+
O
O-Cl
2-Chloro-4-nitroaniline
N+
O
-ON+
O
O-
Cl
1-Chloro-2,4-dinitrobenzene
Cl
N+
O
-O
3-Chloronitrobenzene ClCl
N+
O
-O
2,3-Dichloronitrobenzene
N+
O
-ON+
O
O-
1,3-Dinitrobenzene O
Propionaldehyde O
Isovaleraldehyde
ClCl
Cl
1,1,2-trichloroethane
Cl
Cl
Cl
Cl
tetrachloroethene
HONH2
1-amino-2-propanol Cl
ClCl
Cl
HO2,3,4,6-tetrachlorophenol
Cl Cl
ClHO
2,3,6-trichlorophenol Cl
Cl
HO
2,6-dichlorophenol
ClCl
1,2-dichloropropane
Cl
Cl
Cl
Cl1,2,3,5-tetrachlorobenzene
OHO
2-isopropoxyethanol Cl
3-chlorotoluene
Cl
ClCl
chloroform
HOO
OH
diethyleneglycol
O
diethylether m-xylene
OHCl
3-chlorophenol
OH
O
Cl
Cl4,5-dichloro-2-methoxyphenol
NH2
heptylamine
H2N
nonylamine NH2
s-butylamine
NH2
undecylamine
O O
1,4-dimethoxybenzene
O
1,2-epoxydodecane O
1,2-epoxyoctane
OO
1,3-butadienediepoxide
OCl
2,2-dichlorodiethyl ether
Cl
Cl
Cl2,4,R-trichlorotoluene
Cl
OO
2-furaldehyde
O
cyclohexanecarboxaldehyde
Cl
ClCl
Cl
Cl
Cl
hexachlorobutadiene
O
NH2acrylamide
O
NH2F
fluoroacetamide
HO
2-Methyl-1-propanol
ClCl
Cl ClCl
Cl
Lindane
CH3
S
OP
O
O
S
H3CCH3
CH3
fenthion
H3C
NO2
OP
O
O
SCH3
CH3
Fenitrothion
Propylbenzene
O
N+
Cl
-O
O
PO
SO
Chlorthion
H2N
N+O
O-
O
4-Ethoxy-3-nitroaniline
O SN
O
Lethane
ANEXO 3 Compuestos de la base de datos de Ociosos y caducos de la UCLV, ordenados según el nivel de toxicidad predicha [log (LC50)] por los modelos y de acuerdo al valor experimental del benceno. Anexo 3.1. Compuestos de la base de datos de Ociosos y caducos de la UCLV, ordenados según el nivel de toxicidad predicha [log (LC50)] por el modelo no-estocástico y de acuerdo al valor experimental del benceno. Nombre Toxicidad
Predicha Mas tóxicos que el benceno
benzanilide 0.672 3-bromo-1-nitrobenzene 1.770 1-bromobutane 1.891 benzoyl chloride 1.900 benzoyl bromide 2.087 2,6-dinitrophenol 2.382 4-bromotoluene 2.410 4-methylnitrobenzene 2.419 buthyl ether 2.584 cyclohexyl amine 2.669 diethyl malonate 2.704 benzamide 2.758 aniline hydrochloride 2.782 o-toluidine 2.852 Benzene 2.910
Menos tóxicos que el benceno succinic acid, disodium salt 2.986 diethyl sulfide 3.119 1-pentanol 3.165 diethanolaminie 3.350 2-pentanol 3.378 diethyl carbonate 3.385 o-cresol 3.463 aminoacetic acid 3.655 methanesulfonyl chloride 3.823 ethylamine 3.855 ethyl bromide 3.934 ethyl formate 3.946 ethylene chlorhydrin 4.103
Anexo 3.2. Compuestos de la base de datos de Ociosos y caducos de la UCLV, ordenados según el nivel de toxicidad predicha [log (LC50)] por el modelo estocástico y de acuerdo al valor experimental del benceno. Nombre Toxicidad
Predicha Mas tóxicos que el benceno
benzidine 0.415 benzanilide 0.428 1-bromonaphthalene 0.739 1,10-phenanthroline 0.843 benzoyl bromide 1.320 benzoyl chloride 1.559 4-bromotoluene 1.789 1-bromobutane 1.793 3-bromo-1-nitrobenzene 1.849 2,6-dinitrophenol 1.960 benzamide 2.180 diethyl sulfide 2.276 ethyl bromide 2.335 4-methylnitrobenzene 2.352 o-toluidine 2.406 buthyl ether 2.563 o-cresol 2.607 aniline hydrochloride 2.627 cyclohexyl amine 2.757 Benzene 2.910
Menos tóxicos que el benceno 1-pentanol 3.105 2-chloropropane 3.218 ethylene chlorhydrin 3.333 succinic acid, disodium salt 3.498 2-pentanol 3.518 diethanolaminie 3.726 ethylamine 4.163 ethanol amine 4.269 ethyl formate 4.384 trimethylamine hydrochloride 4.489 aminoacetic aci 4.625