Predicción de toxicidad acuática de compuestos orgánicos ...

2009

Predicción de toxicidad acuática de compuestos orgánicos sobre Poecilia reticulata.

Aguas profundas son las palabras de la boca del hombre, y arroyo que rebosa, la fuente de la sabiduría.

Prov: 18.4

A mis padres por traerme al mundo y luego enseñarme a vivir, por mostrarme

el camino con su infinito amor, y al resto de mi familia, especialmente a mis abuelos.

A mi novia por no faltar a su promesa de amarme en las buenas y en las malas y por

brindarme su apoyo incondicional cada día de mi vida.

Y a todas aquellas personas que de una forma u otra me han ayudado en la vida.

“La gratitud es el mas legitimo pago al esfuerzo ajeno y es reconocer que todo lo que

somos es el resultado del sudor de los demás….”

Mis más sinceros agradecimientos para todas aquellas personas que de una manera u otra

me han ayudado a culminar exitosamente mis estudios y este trabajo.

Quisiera agradecer especialmente a mi familia y a mi novia por confiar en mí y por todo el

apoyo y el amor que me han brindado durante todo el transcurso de mi carrera.

A mi tutor J. Alberto por su apoyo, ánimo y dirección durante el desarrollo de este trabajo.

Al Grupo de Diseño de Fármacos, por su atención y toda la ayuda que me ha brindado

para el desarrollo de esta tesis.

A mis compañeros de aula especialmente a Leyanis y Oremia por estar conmigo en los

momentos buenos y malos durante estos cinco años de mi vida estudiantil.

A todos muchas gracias.

ABSTRACT

The main aim of the study was to develop quantitative structure-toxicity relationship

(QSTR) models for the prediction of aquatic toxicity using atom-based non-stochastic

and stochastic quadratic indices. The used dataset consist of 300 organic compounds,

separated into training and test sets, for which toxicity data to the fresh water fish

Poecilia Reticulata (guppy) were available. Using multiple linear regression, two

statistically significant QSTR models were obtained with non-stochastic (R2 = 0.807 and

s = 0.649) and stochastic (R2 = 0.808 and s = 0.636) quadratic indices. A leave-group-out

(LGO) cross-validation procedure was carried out achieving values of q2 = 0.789 (scv =

0.667) and q2 = 0.791 (scv = 0.652) for each model, respectively. In addition, an external

validation test set was performed, which yields significant values of R2pred of 0.836 and

0.801, correspondingly. The non-stochastic and stochastic quadratic indices appear to

provide an interesting alternative to costly and time-consuming experiments for

determining toxicity. Finally, the QSTR models developed in this work were used to

predict the ecotoxicological risk of several organics compound of interest.

RESUMEN

El objetivo fundamental de este estudio fue desarrollar relaciones cuantitativas estructura-

toxicidad (QSTR) para la predicción de la toxicidad acuática utilizando los índices

cuadráticos estocásticos y no estocásticos basados en relaciones de átomos. La bases de

datos recopilada de la bibliografía esta formada por 300 compuestos orgánicos, separada

en serie de entrenamiento y serie de predicción, para los cuales había sido reportado el

valor de toxicidad (Log LC50) acuática sobre el pez Poecilia Reticulata (guppy).

Empleando un análisis de regresión lineal múltiple, dos modelos estadísticamente

significativos, fueron obtenidos con los índices cuadráticos no-estocásticos (R2 = 0.807 y

s = 0.649) y estocásticos (R2 = 0.808 y s = 0.636). Para verificar la robustez y

predictibilidad de los modelos empleamos la técnica de validación cruzada, dejando-

grupo-fuera mostrando valores de q2 = 0.789 (scv = 0.667) y q2 = 0.791 (scv = 0.652) para

cada modelo, respectivamente. Adicionalmente, el poder predictivo del modelo fue

analizado empleando una serie de predicción externa donde se obtuvieron valores

significativos de R2pred de 0.836 y 0.801 para el modelo no-estocastico y estocastico,

respectivamente. Estos resultados nos permiten plantear que índices cuadráticos pueden

ser empleados como alternativa para los ensayos experimentales los cuales son altos

consumidores de tiempo y dinero además de la necesidad de emplear animales de

laboratorio. Finalmente, los modelos desarrollados fueron utilizados para predecir el

potencial ecotoxicológico de un grupo de reactivos de la base de datos de ocioso y

caducos de la Universidad Central de Las Villas.

Yunier Perera Sardiñas−Predicción de la toxicidad acuática de compuestos orgánicos en Poecilia reticulata

INDICE DE CONTENIDOS

Pág.

RESUMEN INDICE GLOSARIO INTRODUCCION .................................................................................................................. 1

Objetivo General ................................................................................................................. 4 Objetivos Específicos ...................................................................................................... 4

1. REVISION BIBLIOGRAFICA ......................................................................................... 5 1.1.1 Características generales, biológicas y reproductivas del Poecilia Reticulata ...... 5 1.1.2 Bioensayos regulatorios e investigativos. Papel de Poecilia Reticulata en la investigación ecotoxicológica.............................................................................................. 6 1.1.3 Estudios QSAR empleando al Poecilia Reticulata como biomarcador. ................. 8 1.2. Índices cuadráticos moleculares no-estocásticos y estocásticos basados en relaciones de átomos. ........................................................................................................ 10 1.3. Métodos Estadísticos (Quimiométricos) en el Diseño Molecular............................ 14

1.3.1. Introducción a los Métodos Quimiométricos en el Diseño Molecular............. 14 1.3.2. Quimiometría. ..................................................................................................... 14 1.3.3 Metodología general empleada en el los estudios QSAR.................................. 14 1.3.4. Regresión lineal múltiple (RLM). ...................................................................... 15 1.3.5. Multicolinealidad entre variables con el uso de RLM. .................................... 17 1.3.6. Compuestos ‘outliers’ y técnicas para la selección de los mismos. ................. 17 1.3.7. Validación estadística de los modelos QSAR. .................................................. 18 1.3.8. Análisis de conglomerados (análisis de clusters). ............................................. 20

1.4. Regulaciones de los Métodos QSAR........................................................................ 20 MATERIALES Y MÉTODO .............................................................................................. 23

2.1 Obtención de la base de datos de toxicidad acuática sobre (Poecilia. Reticulata). 23 2.2 Método Computacional. TOMOCOMD-CARDD software...................................... 23 2.3. Análisis Estadístico de los Datos. Análisis de RLM. ............................................... 25

RESULTADOS Y DISCUSIÓN .......................................................................................... 27 3.1 Obtención de los Modelos en la Predicción de la Toxicidad Acuática. .................. 27 3.2. Cumplimiento de los principios de la OECD. ......................................................... 35 3.3. Empleo de los modelos desarrollados para la predicción del potencial ecotoxicológico de compuestos Ocioso y Caducos de la UCLV. ................................... 39

CONCLUSIONES................................................................................................................. 43 RECOMENDACIONES ...................................................................................................... 44 REFERENCIAS BIBLIOGRÁFICAS................................................................................ 45

GLOSARIO AC: Análisis de conglomerado (del inglés cluster) ADL: Análisis Discriminante Lineal CAS: Servicio de Registro de Compuestos Químicos (por sus siglas en Ingles) LC50: Concentración letal media DA: Dominio de aplicación EHS: División de Medioambiente, Salud y Seguridad (por sus siglas en ingles) EPA: Agencia de Protección del Medioambiente (por sus siglas en Ingles) ETA: Índices topo-químicos extendidos de átomos IT: Indice topológico LGO: validación cruzada dejando-grupo-fuera (leave-group-out) LOO: validación cruzada dejando-uno-fuera (leave-one-out) LSO: validación cruzada dejando-varios-fuera (leave-several-out) MAE: (Mean Absolute Error) MC: Media cuadrática N: Número de compuestos empleados en el modelo OECD: Siglas en ingles de Organización para la Cooperación y el Desarrollo (Organization for Economic Cooperation and Development) QSAR: Quantitative Structure Activity Relationships QSPR: Quantitative Structure Property Relationships QSTR: Quantitative Structure Toxicity Relationships R2: Coeficiente de correlación RLM: Regresión Lineal Múltiple s: Desviación estándar SC: Suma de cuadrados SE: Serie de entrenamiento SP: Serie de predicción TETRATOX: TOMOCOMD: (TOpological MOlecular COMputer Design). VC: Validación cruzada


INTRODUCCION

Cada año, como el resultado de nuevos procesos biológicos industriales o naturales, nuevos

productos químicos son producidos y/o identificados. Pero no todos estos compuestos son

seguros (1). Por lo que nuestro ambiente acuático está bajo un desafío constante de un gran

numero de contaminantes provenientes de múltiples fuentes, desde aguas residuales de los

hogares, derrames accidentales durante la transportación, las descargas ilegales, hasta

accidentes industriales. Estos desafíos combinados requieren una vigilancia constante de

aquellas entidades responsables de la calidad ambiental actual y la conveniencia del agua

para consumo humano, así como un esfuerzo profundo en la evaluación del riesgo de los

actuales y posibles contaminantes (2).

Estos problemas son objeto de estudio de la ecotoxicología, que es la ciencia que estudia el

destino y los efectos de los contaminantes en los ecosistemas tratando de explicar las causas

y prever los riesgos probables. La ecotoxicología prospectiva evalúa la toxicidad de las

sustancias antes de su producción y uso. La ecotoxicología retrospectiva se ocupa de

confirmar y cuantificar los daños de la sustancia en el ecosistema. El efecto causado por un

tóxico dependerá de su toxicidad inherente (capacidad de causar algún efecto nocivo sobre un

organismo vivo), del grado de exposición, que a su vez dependerá de la cantidad que ingrese,

de cuánto pase a los distintos compartimentos del ecosistema y de su persistencia (3). Los

efectos adversos causados por un agente tóxico pueden presentarse repentinamente, causando

la muerte de algunos organismos, o provocar cambios sutiles que se manifiestan luego de

meses o años. Se debe recordar que un agente químico, dependiendo del nivel de exposición

puede provocar diferentes respuestas en un organismo receptor, o sea determinados niveles

de un agente pueden tener un efecto benéfico o curativo. Sin embargo niveles superiores de

esta misma sustancia pueden provocar efectos adversos e incluso la muerte del receptor (4).

Existen nociones de toxicidad desde mediados del siglo XVI. El médico suizo Paracelso

(1493-1541) escribió “Todas las sustancias son venenosas. No hay nada, que no sea

venenoso. La dosis diferencia un veneno de un remedio” (5). Debido a esta larga historia

podría pensarse que existe disponibilidad de una gran cantidad de datos de toxicidad para su

uso hoy en día, sin embargo nada más lejos de la verdad (6). Cada año se agregan millares de

compuestos al Servicio de Registro de Compuestos Químicos (CAS por sus siglas en Ingles);

por lo que muchas agencias medioambientales están envueltas en esta tarea. De hecho, a

Introducción 2


finales del 2007 mas de 33 millones de compuestos habían sido registrados en el CAS

(muchos de los cuales son compuestos orgánicos sintéticos) y se estima que su incremento

anual esta entre 500 y 1000 nuevos compuestos cada año (7). Los inventarios de sustancias

industriales realizadas en diferentes países arrojaron como resultado un contenido de

aproximadamente 100.000 sustancias en Europa, 75.000 en Estados Unidos y 23.000 en

Canadá. (8) Estos numerosos contaminantes orgánicos son el resultado directo del uso

creciente de compuestos químicos, como herbicidas, fungicidas, productos del hogar,

pesticidas, solventes industriales entre otros. Muchos de estos productos han sido

denominados como peligro potencial por la Agencia de Protección del Medioambiente (EPA

por sus siglas en Ingles) (9).

Como se planteó anteriormente, el gran reto de la ecotoxicología es determinar o predecir los

efectos adversos de los agentes químicos sobre los organismos y el medio ambiente. Las

regulaciones de seguridad medioambiental exigen que cada nuevo producto que se obtenga,

sea probado cuidadosamente antes de entrar al mercado para verificar cualquier efecto

negativo en el medioambiente (10). Las pruebas experimentales para determinar el efecto de

las sustancias representa la fuente más fiable para obtener dichos datos. Desgraciadamente la

realización de tales análisis requiere de un elevado consumo de recursos materiales y de

tiempo; estos ensayos no permiten evaluar una gran cantidad de compuestos y son poco

prácticos debido al gran número de nuevos compuestos fabricados anualmente.(10) Siendo

necesario conocer el impacto ecotoxicológico de los compuestos hay que buscar nuevas

alternativas a la determinación experimental de propiedades toxicológicas.(11)

En años recientes, los estudios cuantitativos estructura-toxicidad (QSTR por sus siglas en

ingles) han emergido como una herramienta útil en este tipo de estudios; dada las

aplicaciones exitosas de los estudios cuantitativos estructura-actividad (QSAR por sus siglas

en ingles) en otros campos tales como farmacología, química y el diseño racional de

fármacos. La necesidad de procesar muchos datos, donde la mayor parte del tiempo proviene

de diferentes fuentes y no poseen el mismo significado biológico, ha llevado al desarrollo de

muchos modelos sofisticados. Debido a que el ambiente acuático es muy vulnerable a los

contaminantes, se ha dedicado un interés especial a la valoración de la toxicidad acuática.(10)

Los estudios QSAR/QSTR ofrecen las ventajas de una mayor velocidad y de un costo más

bajo, especialmente cuando se compara con los estudios experimentales.

Introducción 3


Para que un modelo QSAR sea aceptado con fines regulatorios debe cumplir con cinco

principios conocidos como “principios de la OECD (Organización para la Cooperación

Económica y el Desarrollo, por sus siglas en ingles) para la validación de los modelos

cuantitativos de relación estructura-actividad para ser usados con propósitos regulatorios”

(12).

Entre los muchos estudios que utilizan vertebrados como biomarcadores están, el estudio de

mortalidad en peces para Poecilia Reticulata (guppy). En este sentido, un buen número de

estudios se ha desarrollado utilizando como biomarcador al Poecilia Reticulata sin embargo

los mismos han sido desarrollados empleando una amplia gama de compuestos orgánicos que

tienen en común un esqueleto base o determinados fragmentos .por tanto el principal

problema de dichos estudios esta en su limitado alcance ya que solo es valido para algunas

clases de compuestos. El mayor reto sigue estando en poder obtener modelos

QSTR que permitan describir una mayor diversidad estructural simultáneamente.

Recientemente, nuestro grupo ha desarrollado un novedoso método químico-computacional

conocido por sus siglas acrónimas en ingles: TOMOCOMD (TOpological MOlecular

COMputer Design). Este programa permite el cálculo de varias familias de nuevos

descriptores moleculares.(13-17) Las cuales han sido empleadas en varios estudios

QSAR/QSPR obteniendo satisfactorios resultados.(18-27) Este método es muy flexible y

permite el estudio de pequeñas y grandes moléculas tales como proteínas y ácidos

nucleicos.(28-31) Los resultados obtenidos hasta ahora con los descriptores TOMOCOMD-

CARDD nos permiten suponer que pueden ser una herramienta útil para la predicción del

potencial ecotoxicológico de sustancias de interés.

Por todo lo anterior se plantea el siguiente problema científico:

Los modelos QSTR utilizados hasta el momento y que emplean al Poecilia Reticulata como

biomarcador han sido obtenidos a partir de bases de datos limitadas y por tanto no son útiles

para la predicción de la toxicidad de otros compuestos químicos.

Para dar respuesta a la problemática científica nos planteamos la siguiente hipótesis

Si se aplican otros enfoques grafo-teóricos podremos obtener modelos matemáticos a partir

de bases de datos más extensas y que a su vez sean efectivos, sencillos, interpretables y

robustos, de modo que puedan ser utilizados en la predicción del potencial ecotoxicológico

de diferentes sustancias de interés.

Introducción 4


Para demostrar la anterior hipótesis y dar respuesta a la problemática científica planteado,

se proponen los siguientes objetivos:

Objetivo General

Obtener, utilizando los descriptores TOMOCOMD-CARDD, modelos o sistemas de

cribado computacional capaces de estimar el potencial ecotoxicológico de diferentes

sustancias de interés, tanto su influencia negativa para los seres humanos como para

el medio ambiente

Objetivos Específicos

Coleccionar datos de toxicidad acuática de diferentes compuestos químicos sobre

Poecilia Reticulata, para construir una base de datos propia.

Obtener modelos QSTR utilizando el ensayo de toxicidad aguda al pez Poecilia

Reticulata como biomarcador de la toxicidad acuática de compuestos orgánicos,

empleando un nuevo enfoque computacional.

Validar la calidad estadística y predictiva de los modelos obtenidos, a través de

procesos de validación tanto interna como externa.

Determinar el Dominio de Aplicación de los Modelos

Tamizar los reactivos de la base de datos de productos ociosos y caducos de la UCLV

para ordenarlos según su toxicidad.

Revisión Bibliográfica 5


1. REVISION BIBLIOGRAFICA

1.1.1 Características generales, biológicas y reproductivas del Poecilia Reticulata

Los guppys (Poecilia reticulata) son pequeños peces tropicales pertenecientes a la familia

Poecilidae, se caracterizan por su afinidad a climas tropicales (32-35), ya que son originarios

de las corrientes costeras del nordeste de Sudamérica. Deben su nombre a Robert John

Lechmere Guppy que los introdujo en el comercio de acuario, es un pez muy popular en el

ámbito acuarístico. Puesto que hoy en día se ha logrado desarrollar una gran cantidad de

variedades que van desde cambios en su coloración hasta su tipo y forma de la cola. Entre las

variedades más comerciales se encuentran: king cobra, flamingo, mitad negro, cabeza de

jade, metálico y multicolor (36). Aunque es originario del Caribe, puede ser encontrado en

forma nativa desde Venezuela y el norte de Brasil hasta México, abarcando Guyana Británica

y Surinam, Trinidad y Tobago y Barbados (37).

Los guppys son sumamente variables tanto fenotípica como genéticamente. Sexualmente los

machos exponen una serie asombrosa de puntos y rayas diferentemente coloreadas, tal que

cada macho casi parece único (Ver Figura 1), haciendo al guppy uno de los vertebrados más

polimorfos conocidos. Aunque las hembras no muestren tal coloración, ellos varían en

términos de sus compañeros preferidos tanto dentro de poblaciones como entre poblaciones,

haciendo al guppy un sistema poderoso para estudiar la selección sexual (38).

En esta especie la reproducción es vivípara, el tiempo de desarrollo usual del embrión dentro

de las hembras va de 25 a 30 días aproximadamente. La duración de este periodo depende de

la temperatura del agua, la nutrición y la edad del pez. El hecho de que las crías se

desarrollen dentro de la madre, proporciona una excelente protección contra peces

depredadores y condiciones adversas del entorno, sin embargo, suele ocurrir canibalismo, ya

que los padres frecuentemente se comen a sus crías. Por esto, debe prepararse el acuario para

separar a los padres de sus crías inmediatamente después de que estas nacen (37).

Los P. reticulata son los peces vivíparos que toleran un ámbito más extremo de

temperatura,ya que viven en aguas que van desde los 16 ºC hasta los 30ºC,siendo la más

adecuada entre 25 y 28ºC. El macho posee una cola muy desarrollada y bien coloreada en

forma triangular la mayoría de las veces, pero su cuerpo es de menor tamaño que el de la

hembra. Por el contrario, la cola de la hembra no es tan grande como la del macho y tiene en

comparación con éste una coloración pobre. Cuando estos peces se encuentran en su etapa



reproductiva la aleta anal del macho sufre una metamorfosis, convirtiéndose en un

gonopodium con el cual fertiliza a la hembra. Por su parte la hembra desarrolla un punto

obscuro arriba de su aleta anal, que indica su madurez (37).

Figure 1. Diversidad fenotípica del Guppy

1.1.2 Bioensayos regulatorios e investigativos. Papel de Poecilia Reticulata en la

investigación ecotoxicológica.

Los bioensayos de toxicidad aguda o crónica permiten evaluar el efecto de una sustancia

química en organismos vivos (39). Las pruebas ecotoxicológicas agudas cuantifican las

concentraciones letales de un xenobiótico sobre una especie en particular de la biota (40).

Los bioensayos de toxicidad, con agentes contaminantes bajo condiciones de laboratorio, se

han incrementado en estos últimos años debido a la brevedad con que se obtiene la

información sobre la concentración letal media (LC50) (en mg o mg L-1) y los efectos

subletales que afectan negativamente a la biota en los ambientes marinos, estuarinos y

dulceacuícolas (39).



Las pruebas ecotoxicológicas con peces son tradicionalmente empleadas en muchas partes

del mundo, ya que éstos juegan un papel importante dentro de la cadena alimenticia (41).

Recientemente, hay una tendencia a usar peces de pequeño tamaño como especies centinela

para investigaciones ecotoxicológicas e investigaciones biomédicas. Los pequeños peces

tienen varias ventajas en estudios de ecotoxicología, ya que ellos son generalmente fáciles

para mantener y de reproducirse en condiciones de laboratorio. El tiempo de generación es

relativamente corto, y el pez puede producir huevos con regularidad, de ahí proporcionando

una variedad de bioensayos (42-45).

Los peces consumen y controlan las poblaciones de insectos, microcrustáceos y algas, y

permiten de esta forma la recirculación, remoción y resuspensión del material orgánico

dentro del ecosistema. Debido a su gran importancia, se han desarrollado una gran variedad

de bioensayos que han empleado especies de peces, que son sensibles a la presencia de

determinados agentes tóxicos. Los peces son organismos acuáticos extremadamente sensibles

a la perturbación ambiental, siendo afectados en su crecimiento y en sus funciones

reproductivas (46). Numerosas especies de peces han sido propuestos como bioindicadores

para evaluar la ecotoxicidad de sustancias químicas contaminantes como: peces cebra (Danio

nuevo Río), pececillo de cabeza gorda (Pimephales promelas), pez del mosquito (Gambusia

affinis), guppy (Poecilia reticulata) y medaka japonés (Oryzias latipes), entre otros son

comúnmente usados como modelos de peces de agua dulce en estudios ecotoxicológicos (47-

52).

Debido a su alta tasa de reproducción y facilidad de mantenimiento, los guppys son un

recurso valioso para la investigación biomédica. Por ejemplo, David Reznick y los colegas

explotan diferencias demográficas en la historia de vida como un modelo para entender las

fuerzas que forman la variación en envejecido, y en nuestro laboratorio estudiamos al

mutante de guppy ‘curveback’ como un modelo hasta ahora único para la escoliosis

idiopática familiar (38). Pero los guppys son también uno de los primeros sistemas modelos

para el estudio de selección sexual, evolución genética, y ecología. Se han realizado diversos

estudios en P. reticulata en el ámbito del aprendizaje y del comportamiento reproductivo

(53-55), así como modificaciones en el comportamiento por acción de pesticidas

organofosforados (56).



1.1.3 Estudios QSAR empleando al Poecilia Reticulata como biomarcador.

Varios estudios QSAR se han desarrollado utilizando el ensayo de letalidad de 96h del

Poecilia Reticulata como biomarcador (57-60). Sin embargo estos estudios en su gran

mayoría tienen un alcance limitado pues parten de bases de datos de series congenéricas o

que tienen un sustituyente común para todos los compuestos. Aquí se trataran de manera

abreviada los estudios más relevantes publicados hasta el momento, comentando los

resultados más sobresalientes, el método empleado así como los descriptores utilizados.

En la segunda mitad de la década de los 90 del pasado siglo Verhaar, Urrestarazu y Hermens

desarrollaron un estudio QSAR para predecir la toxicidad aguda 172 compuestos orgánicos

sobre el pez P. Reticulata empleando la Regresión Lineal Múltiple (RLM) como técnica

estadística. Los modelos obtenidos con cuatro variables significativas arrojaron valores de

R2=0.928 y un q2=0.920 para la validación cruzada. Este estudio inicio en aquel momento

el empleo un nuevo enfoque para entender el mecanismo de toxicidad y encontrar la relación

entre los mecanismos de toxicidad y los parámetros fisicoquímicos de los compuestos (57).

Posteriormente, Katritzky y Tatham en el año 2001 propusieron aplicar el método

CODESSA para la predicción de toxicidad acuática sobre P. reticulata (59). Emplearon una

base datos mas extensa la cual fue dividida por clases, basándose en el mecanismo de acción

toxica, de la siguiente manera: 90 compuestos en la clase 1 definidos como narcóticos no

polares, de la cual se obtuvo un modelo con los siguientes parámetros estadísticos R2=0.955

y s=0.3105, para la clase 2 clasificados como narcóticos polares con una totalidad de 121

compuestos se obtuvo R2=0.918 y s=0.2924 , para la clase 3 (productos químicos reactivos)

conformada por una base de datos de 41 compuestos se obtuvo R2=0.848 y s=0.5596, y para

la 4ta clase definidos como pesticidas con una data de 31 compuestos resulto una R2=0.755 y

una s=0.6569 (59).

Adicionalmente, en el año 2002 Seward, Hamblen y Schultz realizaron un estudio de

comparación de datos de toxicidad entre P. reticulata y Tetrahymena Pyriformis para un

grupo de productos químicos (58). Empleando la base de datos TETRATOX para modelar la

capacidad de T. pyriformis de predecir la toxicidad de una especie diferente, en este caso el

guppy P. reticulata. Para llevar a cabo dicho estudio se empleó una base de datos de 124

compuestos, se desarrollo un análisis de RLM empleando como variable dependiente

logLC50 y el resto como variables independientes. Se identificaron 5 compuestos outliers,



que una vez retirados de la base de datos mejoraron la relación obteniéndose estadísticamente

modelos con un R2 = 0,85 y una s= 0,42 (58).

Mas recientemente, en el año 2004, Roy y Ghosh realizaron un estudio de relación

cuantitativa estructura toxicidad (QSTR) en el campo de la toxicología acuática con el

objetivo de evaluar la seguridad ecológica del pez Poecilia reticulata frente a derivados del

benceno (60). Para ello emplearon una base de datos de 92 compuestos basándose y como

técnica estadística en una RLM; los descriptores empleados en este trabajo fueron los índices

topo-químicos extendidos de átomos (ETA por sus siglas en ingles) aunque también

desarrollaron modelos con otros descriptores topológicos y fisicoquímicos para comparar los

resultados. Los datos fueron pre-procesados utilizando un análisis de componentes

principales para reducir la dimensionalidad e identificar las variables más importantes. El

mejor resultado obtenidos con índices topológicos y fisicoquímicos fueron R2 =0.738, q2=

0.718, s=0.340 mientras que al emplear los descriptores ETA el mejor modelo mostró un

comportamiento superior con R2 =0.885, q2= 0.865, s=0.23; de la comparación se obtuvieron

algunas consideraciones interesantes respecto a la toxicidad de los compuestos en relación a

su estructura química (60).

Por ultimo un estudio realizado en el año 2005 por Hoover, Acree y Abraham en el cual se

desarrollaron modelos para predecir la toxicidad química sobre varias especies de peces

incluía también al P. reticulata (guppy) (1). La base de datos de toxicidad reportada para este

pez es la segunda más grande de las seis especies de peces consideradas en el dicho estudio,

registrándose los valores de LC50 para 148 compuestos. En ese estudio se alcanzaron buenos

resultados para los parámetros estadísticos del mejor modelo QSAR desarrollado en el

mismo, como son una R2=0.946 con una pequeña desviación estándar de aproximadamente

0.28 unidades. Adicionalmente desarrollaron otros modelos empleando fracciones de esta

base de datos alcanzando también buenos resultados (1).

De manera general podemos plantear que a pesar de las limitaciones antes mencionadas, este

tipo de estudios posibilita la predicción de la toxicidad acuática de productos químicos

orgánicos y permite también ayudar en la identificación de compuestos con determinado

modo de acción tóxica como son la reactividad química específica, la narcosis no polar y

polar entre otros



1.2. Índices cuadráticos moleculares no-estocásticos y estocásticos basados en relaciones

de átomos.

Los índices cuadráticos totales, qk(x) han sido previamente definidos en trabajos de nuestro

grupo (14, 17, 20, 61), por lo cual aquí solo se brindara una pequeña reseña de los mismos.

Teniendo en cuanta lo anterior podemos plantear que loa índice cuadráticos basados en

relaciones de átomos se calculan entonces a partir de la ecuación que se muestra a

continuación:

∑∑==

=n

jjiij

kn

ik XXaxq

11)(

(1.1)

donde aij = aji (matriz cuadrada simétrica), n es el número de átomos de la molécula y

X1,…,Xn son las coordenadas del vector molecular (X) en la base canónica qua de Rn. Por

tanto, las coordenadas de X son los valores numéricos de una propiedad atómica que

caracteriza a cada tipo de átomo en la molécula, pues en la base canónica las coordenadas de

cualquier vector coinciden con los componentes del vector (62-68). Los coeficientes kaij son

los elementos aij de la k-ésima potencia de la matriz M del seudografo molecular, la cual es

utilizada como matriz de la forma cuadrática con respecto a la base canónica.

La expresión de qk(x) puede ser escrita como una simple ecuación matricial (14, 17, 20, 61):

[ ]⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡=

n

k

nnn

n

nk

X

X

aa

aaXXxq M

L

MM

L

L1

1

111

1)( (1.2)

o en una forma matricial más compacta,

qk(x) = [X]t Mk [X] (1.3)

donde [X] es un vector columna (una matriz de nx1) de las coordenadas de X en la base

canonical de ℜ n, [X]t es la transpuesta de [X] (una matriz de 1xn) y Mk es la k-ésima

potencia de M. Como puede apreciarse, los índices cuadráticos totales para una molécula de

n átomos son aplicaciones entre espacios, que transforman al vector molecular en k números,

en correspondencia con las k-ésimas M matrices utilizadas como matrices de la

transformación. Matemáticamente, podemos considerar a los índices cuadráticos como

formas cuadráticas q en x1, x2,…,xn variables (q: Rn → R) que utilizan las k-ésimas matrices

de los pseudografos moleculares (Mk) como matrices de las formas. En la Tabla 1.1



(columna izquierda) se ejemplifica esta representación (M0-M2) para la molécula del 2-

formil-6-metilbenzonitrilo.

Uno de los criterios importantes de la lista de propiedades deseables para un nuevo índice

topológico (IT) es la posibilidad de definir localmente los descriptores (69). Es por ello que

se ha propuesto una definición local de los índices cuadráticos moleculares. La definición de

estos descriptores, invariantes grafo-teóricas para un fragmento FR dado, dentro de un

seudografo específico es la siguiente (14, 17, 20, 61):

∑∑==

=m

jjiijL

km

ikL XXaxq

11)(

(1.4)

donde m es el número de átomos del fragmento de interés y kaijL es el elemento de la fila “i”

y columna “j” de la matriz MkL ≡ Mk(G, FR) [ qkL(x) ≡ qk(x, FR)]. Esta matriz se extrae de la

matriz k-ésima potencia de M y contiene la información referida a los vértices del fragmento

FR de interés y también de su entorno molecular. La matriz MkL = [kaijL] y los elementos kaijL

se definen a continuación: kaijL = kaij si ambos vi y vj son átomos contenidos dentro del fragmente de interés (1.5)

= 1/2 kaij si vi o vj están contenidos en el fragmento de interés pero no ambos

= 0 de otra forma

Nótese que si una molécula se divide en Z fragmentos moleculares, la matriz Mk puede ser

dividida en Z matrices locales MkL, L = 1,...Z y la matriz k-ésima potencia de M es

exactamente la suma de las k-ésima potencia de las Z matrices locales. Utilizando este

enfoque, los índices cuadráticos totales son la suma de los índices cuadráticos locales de los

Z fragmentos:

)()(1

xqxqZ

LkLk ∑

=

= (1.6)

Cada orden de las formas cuadráticas locales tiene un significado particular. Especialmente

para los primeros valores de k, contienen información sobre la estructura del fragmento FR en

sí. Para valores mayores, contiene información sobre el entorno del fragmento FR

considerado dentro del pseudografo molecular (14, 17, 20, 61).



Tabla 1.1. Cálculo de Mk(G) y Sk(G) para la Molécula del 2-formil-6-metilbenzonitrilo Cuando k Varía entre 0 y 2.

N

CHO

CN

CH3

12

34

5

6

7

89 10

11 Estructura Molecular

O1

C2C3

C4

C5

N6

C7

C8

C9

N10

C11 Pseudografo Molecular (G)

aij O1 C2C3 C4 C5 N6 C7 C8 C9 N10 C11 ikδ O1 C2 C3 C4 C5 N6 C7 C8 C9 N10 C11

M0(G) S0(G) O1 1 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 C2 0 1 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 C3 0 0 1 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 C4 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 C5 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 N6 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 C7 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 C8 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 C9 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 1 0 0 N10 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 1 0 C11 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 1

M1(G) S1(G) O1 0 2 0 0 0 0 0 0 0 0 0 2 0 1 0 0 0 0 0 0 0 0 0 C2 2 0 1 0 0 0 0 0 0 0 0 3 0.66 0 0.33 0 0 0 0 0 0 0 0 C3 0 1 1 1 0 0 0 1 0 0 0 4 0 0.25 0.25 0.25 0 0 0 0.25 0 0 0 C4 0 0 1 1 1 0 0 0 0 0 0 3 0 0 0.33 0.33 0.33 0 0 0 0 0 0 C5 0 0 0 1 1 1 0 0 0 0 0 3 0 0 0 0.33 0.33 0.33 0 0 0 0 0 N6 0 0 0 0 1 1 1 0 0 0 0 3 0 0 0 0 0.33 0.33 0.33 0 0 0 0 C7 0 0 0 0 0 1 1 1 0 0 1 4 0 0 0 0 0 0.25 0.25 0.25 0 0 0.25C8 0 0 1 0 0 0 1 1 1 0 0 4 0 0 0.25 0 0 0 0.25 0.25 0.25 0 0 C9 0 0 0 0 0 0 0 1 0 3 0 4 0 0 0 0 0 0 0 0.25 0 0.75 0 N10 0 0 0 0 0 0 0 0 3 0 0 3 0 0 0 0 0 0 0 0 1 0 0 C11 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0

M2(G) S2(G) O1 4 0 2 0 0 0 0 0 0 0 0 6 0.66 0 0.33 0 0 0 0 0 0 0 0 C2 0 5 1 1 0 0 0 1 0 0 0 8 0 0.625 0.125 0.125 0 0 0 0.125 0 0 0 C3 2 1 4 2 1 0 1 2 1 0 0 14 0.143 0.071 0.287 0.143 0.071 0 0.071 0.143 0.071 0 0 C4 0 1 2 3 2 1 0 1 0 0 0 10 0 0.1 0.2 0.3 0.2 0.1 0 0.1 0 0 0 C5 0 0 1 2 3 2 1 0 0 0 0 9 0 0 0.111 0.222 0.333 0.222 0.111 0 0 0 0 N6 0 0 0 1 2 3 2 1 0 0 1 10 0 0 0 0.1 0.2 0.3 0.2 0.1 0 0 0.1 C7 0 0 1 0 1 2 4 2 1 0 1 12 0 0 0.083 0 0.083 0.166 0.333 0.166 0.083 0 0.083C8 0 1 2 1 0 1 2 4 1 3 1 16 0 0.063 0.125 0.063 0 0.063 0.125 0.25 0.063 0.188 0.063C9 0 0 1 0 0 0 1 1 10 0 0 13 0 0 0.077 0 0 0 0.077 0.077 0.769 0 0 N10 0 0 0 0 0 0 0 3 0 9 0 12 0 0 0 0 0 0 0 0.25 0 0.75 0 C11 0 0 0 0 0 1 1 1 0 0 1 4 0 0 0 0 0 0.25 0.25 0.25 0 0 0.25



Los índices cuadráticos atómicos y de átomo-tipo son dos casos específicos de índices

cuadráticos moleculares locales (para FR = átomo y para FR = conjunto de átomos del mismo

tipo, respectivamente). O sea, que los índices cuadráticos átomo-tipo se calculan sumando los

índices cuadráticos de todos los átomos del mismo tipo en la molécula. En este formalismo,

cada átomo en la molécula es clasificado según su tipo, tales como heteroátomos, H-unidos a

heteroátomos, halógenos, átomos de carbonos en cadenas alifáticas, átomos aromáticos

(anillos aromáticos), entre otros.

Adicionalmente los índices cuadráticos estocásticos, sqk(x) presentan las mismas propiedades

descritas para sus homólogos no estocásticos y se derivan de estos. Es decir, los k-ésimos

índices cuadráticos estocásticos totales y locales se calculan según la misma invariante

definida en la ecuación 1.1, pero usando la matriz estocástica de adyacencia entre átomos del

pseudografo molecular, Sk(G), como matriz de la forma cuadrática. Sk(G) puede ser obtenida

directamente de Mk(G). Los elementos ksij se definen como se muestra en la ecuación 5.30:

ik

ijk

ik

ijk

ijk a

SUMa

sδ

== (1.7)

donde kaij son los elementos de la k-ésima potencia de M, y kSUMi es la suma de la fila i-

ésima de Mk o grado del vértice de orden k del átomo i, ikδ . Esta transformación normaliza

cada fila de la matriz original y por tanto, sus k-ésimos elementos constituyen las

probabilidades de transición con las cuales un electrón se mueve de un átomo i a otro j en un

período de tiempo discreto tk.. En la columna derecha de la Tabla 1.1 se muestra, a modo de

ejemplo, las matrices estocásticas de orden 0-2 para la molécula del 2-formil-6-

metilbenzonitrilo. Nótese que los k-ésimos elementos sij toman en consideración la

información de la topología molecular en k pasos a través de todo el esqueleto covalente. Así

por ejemplo, los valores de 2sij pueden distinguir entre las diferentes formas híbridas de cada

átomo. En este sentido, en la Tabla 1.1 (columna derecha) puede observarse que los

electrones tienen una mayor probabilidad de regresar a un átomo de nitrógeno sp [p(N10) =

0.75] que a un átomo de nitrógeno sp2 [p(N6) = 0.33] en t2 (k = 2). Un comportamiento

similar puede observarse entre los diferentes “estados híbridos” de los átomos de carbono en

la molécula 2-formil-6-metilbenzonitrilo (ver Tabla 1.1): Csp3 [p(C11) = 0.25]; Csp2 [p(C2) =

0.625]; Csp2arom [p(C3) = 0.285, p(C4) = 0.3, p(C5) = 0.33, p(C7) = 0.33, p(C8) = 0.25]; y Csp

[p(C9) = 0.769]. Esto es un resultado lógico si tomamos en cuenta las propiedades



electrónicas (por ejemplo su escala de electronegatividad) de cada una de las diferentes

hibridaciones de estos átomos.

1.3. Métodos Estadísticos (Quimiométricos) en el Diseño Molecular

1.3.1. Introducción a los Métodos Quimiométricos en el Diseño Molecular

Los estudios QSAR constituyen un enfoque que permite entender como la variación

estructural afecta la propiedad/actividad biológica de un conjunto de compuestos. En estos

estudios, los descriptores moleculares (X) se correlacionan con una variable respuesta (Y). Es

decir, este análisis puede definirse como una aplicación de métodos matemáticos y

estadísticos al problema de encontrar una ecuación empírica de la forma Yi = fi(X1, X2, ...Xn),

donde Yi son las propiedades y/o actividades biológicas de la molécula, y X1, X2, ...Xn son

propiedades estructurales experimentales o calculadas (descriptores moleculares) de los

compuestos. En este sentido, cada compuesto puede representarse como un punto en un

espacio multidimensional, en los cuales los descriptores X1, X2, ...Xn son coordenadas

independientes del compuesto. El objetivo más usual de este análisis es incrementar el

entendimiento del sistema biológico bajo investigación o predecir la propiedad estudiada a un

objeto (compuesto) no utilizado en la obtención del modelo.

1.3.2. Quimiometría.

El término quimiometría, surgió en la década del 70 y se define como la disciplina química

que utiliza métodos estadísticos y matemáticos para seleccionar y optimizar los métodos

analíticos y preparativos, así como procedimientos para el análisis e interpretación de los

datos (70).

1.3.3 Metodología general empleada en el los estudios QSAR.

Los principios de la metodología QSAR pueden describirse mediante los siguientes pasos

comunes (70): 1) Formulación del problema, se determina el objeto de análisis y el nivel de

información requerido, 2) Parametrización cuantitativa de la estructura molecular de los

compuestos químicos orgánicos/secuencia de biopolímeros, 3) Medición de la propiedad de

interés (‘efectos biológicos’), 4) Escoger el tipo de modelo QSAR que se va a desarrollar, 5)

Selección de los compuestos (diseño estadístico de la serie), 6) Análisis matemático de los



datos y Validación interna y externa de los modelos obtenidos, 7) Interpretación de los

resultados y Aplicación de los modelos desarrollados al diseño/descubrimiento de un nuevo

compuesto líder, desarrollando procedimientos de tamizaje virtuales. Sin embargo, el

desarrollo de cualquier QSAR es un ciclo interactivo.

1.3.4. Regresión lineal múltiple (RLM).

La RLM estudia las relaciones entre una variable dependiente y un conjunto de variables

independientes. Así mismo, la regresión múltiple remite a la correlación múltiple, que se

representa por R. Es decir, la correlación múltiple analiza la relación entre una serie de

variables independientes o predictores (X1, X2, ..., Xk), considerados conjuntamente, con una

variable dependiente o criterio. Sus fundamentos se hallan en la correlación de Pearson.(71)

La recta de regresión múltiple tiene la siguiente forma:

Y = a + b1 X1 + b2 X2 +...+ bk Xk (1.8)

siendo ‘a’ un valor constante. Como puede observarse, la RLM puede utilizarse en la

predicción de los valores de la variable dependiente, en base a una combinación de variables

independientes.

1.3.4.1. Principio de la parsimonia para seleccionar el número optimo de variables.

La R2 aumenta en la medida en que se añaden variables a la ecuación; pero a partir de cierto

punto el incremento de R2 para cada nueva variable que se añade, es insignificante. Un buen

modelo no debe presentar ni demasiadas variables, ni debe olvidar las que sean

verdaderamente relevantes. Es decir, debe cumplir el principio de la parsimonia, según el

cual un fenómeno debe ser descrito con el número mínimo de elementos posibles.

Diversos procedimientos se han propuesto para seleccionar el número óptimo de variables a

incluir en la ecuación, como por ejemplo la ‘forward selection’, ‘backward elimination;

y ‘stepwise selection’ (72). Este último método es el más utilizado (en combinación con los

dos anteriores) y sigue un proceso de selección de variables paso a paso.

1.3.4.2. Incremento de R2 y correlación parcial.

Se llama incremento de R2 a una estimación de la importancia relativa que tiene la variable

que acaba de entrar en este paso para predecir el criterio. El incremento de R2 viene dado por:



222ic RRR −= (1.9)

donde 2iR es el coeficiente de correlación múltiple al cuadrado cuando todas las variables,

excepto la i (la que acaba de entrar en este paso), están incluidas en la ecuación. Por lo tanto,

la 2iR en un paso determinado coincide con la R2 del paso anterior. Un coeficiente 2

iR alto

significa que esta variable proporciona información importante que no está contenida en las

otras variables.

1.3.4.3. Análisis de la varianza.

El ANOVA (ANalysis Of VAriance) sirve para comprobar la hipótesis de que R2 = 0. La

variabilidad total de la variable dependiente se divide entre la parte atribuible a la regresión y

la parte residual. La distancia de un punto cualquiera Yi a la Y se sub-divide en dos

partes:(71)

( ) ( )YYYYYY iiii −+−=− (1.10)

siendo iY el valor predicho por la ecuación de predicción. El valor ii YY − , denominado

residual de la regresión sería cero si la recta pasase exactamente por encima del punto Yi. El

otro valor, YYi − , corresponde a la distancia explicada por la regresión y representa el

aumento en la estimación de Yi mediante la recta de regresión.

En el ANOVA, F viene dada por:

residual

regresion

MCMC

F = (1.11)

Esta F sigue una distribución F de Snedecor con grados de libertad v1 = υ, v2 = n- υ -1;

siendo υ el número de variables de la ecuación. La media cuadrática (MC) se obtiene

dividiendo la suma de cuadrados por los grados de libertad. La F sirve para comprobar si el

modelo de regresión se ajusta a los datos y permite evaluar si se rechaza la hipótesis nula,

según la cual, R2 = 0. Es interesante observar, que si el modelo se ajusta a los datos, el

coeficiente de determinación (R2) se puede calcular a partir de las suma de cuadrados (SC)

del ANOVA mediante:

total

residual

SCSC

R −=12 (1.12)



1.3.4.4. Importancia de la tolerancia en la RLM.

La tolerancia es una medida del grado de asociación lineal entre las variables independientes

(73). Para la variable i, la tolerancia es igual a 1- 2iR , donde 2

iR es la correlación múltiple al

cuadrado entre la variable i considerada como variable dependiente y las demás variables

independientes. Valores bajos en la tolerancia, indican que la variable i puede ser

considerada como una combinación lineal de las otras variables independientes. Por tanto, la

tolerancia de una variable, en un paso cualquiera del análisis ‘stepwise’, es la proporción de

su varianza intra-grupo no explicada por otras variables del análisis.

1.3.5. Multicolinealidad entre variables con el uso de RLM.

El término ‘multicolinealidad’ se utiliza para describir la situación en que un gran número de

descriptores moleculares están altamente intercorrelacionados. Las variables que se

aproximan a ser una combinación lineal de las otras, se denominan multicolineales o

colineales (71-74). Una ‘multicolinealidad’ alta, produce errores estándares altos en los

coeficientes de regresión y dificulta estimar la importancia relativa de los descriptores en el

modelo, lo cual afecta la interpretación de las actividades modeladas en términos

estructurales. La importancia relativa puede determinarse al valorar el incremento en la R,

cuando se añade una variable a la ecuación que ya contiene las demás variables ( 2iR ). El

método más utilizado para detectar la existencia de variables colineales es obtener una matriz

de correlaciones entre los descriptores moleculares. Uno de los métodos más utilizados para

detectar la interdependencia entre variables, es la tolerancia. Problemas con la redundancia

de la información y la colinealidad, han sido ilustrados con el uso de ITs, tales como los

índices de conectividad molecular (75, 76). El nivel aceptable de colinealidad es algo

subjetivo y en ese sentido se ha reportado que coeficientes de correlación entre las variables

aceptables están en el rango de 0.4-0.9 (77).

1.3.6. Compuestos ‘outliers’ y técnicas para la selección de los mismos.

Los ‘outliers’ son puntos que se desvían significativamente del modelo encontrado (no se

ajustan al modelo) o son pobremente predichos por estos, afectando los parámetros

estadísticos del mismo (78). Generalmente, la identificación de ‘outliers’ busca un



mejoramiento cualitativo del modelo. Un buen ejemplo ha sido mostrado por Cronin y col. en

la modelación de la toxicidad de compuestos carbonílicos alifáticos para T. Pyriformis (77).

En este estudio, para un total de 140 compuestos solo se obtuvo un moderado ajuste

estadístico (R2 = 0.753). Sin embargo, al remover cinco outliers R2 aumentó hasta 0.853 (77).

Existen varias técnicas para detectar la presencia de ‘outliers’, tales como: los análisis de los

residuales estandarizados, los residuales studentizados, el método de Leverage, la estadística

DFITS, la distancia de Cook y el método de dejar “varios” fuera (74).

1.3.7. Validación estadística de los modelos QSAR.

El enfoque convencional adoptado en los análisis QSAR, basado en la RLM, es considerar el

parámetro R2 (‘varianza explicada’), R y s. Las variables como R2 varían entre 0 y 1, donde 1

significa un modelo perfecto (explica el 100% de la variable respuesta, Y) y 0 un modelo sin

ningún poder de explicación. Entonces un alto valor de R2 y una baja s, son condiciones

necesarias para la validez del modelo RLM. O sea, como en ANOVA la validez viene dada

solo por el ensayo F, si varios modelos pasan esta prueba, el de mayor R2 y/o menor s será el

mejor modelo encontrado.

Cuatro herramientas pueden ser utilizadas para acceder a la validación de los modelos QSAR

obtenidos por RLM y la mayoría de estas pueden también extrapolarse a la validación de los

modelos obtenidos con el Análisis Discriminante Lineal (ADL) (79): 1) Aleatorización de la

variable respuesta (Y- Randomización), 2) validaciones cruzadas, 3) división de la data de

compuestos en serie de entrenamiento (SE) y en serie de predicción (SP) y 4) confirmación

del poder predictivo utilizando SP ‘externas’. A continuación desarrollaremos brevemente

solo los puntos referidos a los enfoques de validación de los modelos que son de nuestro

interés.

1.3.7.1. Validación interna de los modelos (Validaciones cruzadas).

La validación cruzada (VC) opera haciendo un número (G) de reducidas modificaciones al

conjunto de compuestos de la data original y entonces calcula la precisión de las predicciones

de cada uno de los resultados de los modelos(80, 81). Entonces, la VC crea G conjuntos de

datos modificados tomando uno o más grupos de compuestos de los datos, en donde cada

observación (compuestos) se toma una vez, sobre el número total de ciclos de VC, G.



Entonces el modelo es ajustado a los nuevos datos, dejando la parte omitida fuera, y estos se

evalúan en el modelo para computar las predicciones de los compuestos que fueron

excluidos. Este procedimiento se repite para cada conjunto de datos modificados. El poder

predictivo del modelo puede expresarse como q2, el cual ha sido denominado como la

‘varianza predictiva’ o la ‘varianza de la validación cruzada’, la cual es igual a (1-

PRESS/SSY), o sea que puede ser calculado acorde a la siguiente fórmula:

( )

2

22 1

∑

∑−

⎟⎠⎞

⎜⎝⎛ −

−=

∧

yyi

yiyiq (1.13)

donde yi ,∧

yi y y es la actividad observada, estimada y el promedio (media) para el i-ésimo

compuesto, respectivamente.

Cuando se utiliza un solo compuesto en cada grupo de VC (lo cual da N grupos), el

procedimiento se conoce como “dejando uno fuera” y sus siglas en ingles son LOO

(acrónimo de Leave-One-Out). No obstante, Shao ha mostrado que desde el punto teórico y

práctico, el procedimiento de dejar ‘varios’ fuera (LSO; Leave-Several-Out) es preferible al

LOO.(82) Este resultado puede entenderse al considerar que sucede cuando el número de

compuesto, N, se incrementa. La técnica de LSO siempre deja fuera una porción de los datos

creando una perturbación constante en la estructura de los datos. Wold y Eriksson

recomiendan utilizar un valor de G alrededor de siete, al utilizar el procedimiento de VC.(79)

El promedio de la media de los errores en valores absolutos, MAE (Mean Absolute Error),

para cada uno de los grupos dejados fuera puede ser usado como un criterio significativo para

acceder a la calidad del modelo (83).

1.3.7.2. Validación de los modelos empleando de una serie de predicción externa.

Usualmente el procedimiento de VC es denominado validación interna, porque todos los

compuestos que considera pertenecen a los mismos datos originales. Sin embargo, cuando el

número de compuestos es grande, estos pueden dividirse en dos conjuntos separados de

entrenamiento o calibración y otro conjunto de validación o predicción (validación externa).

Muchos investigadores consideran a los altos valores de q2 (q2 > 0.5) como un indicador del

poder predictivo de un modelo QSAR.(84-88) En contraste con estas especulaciones, varios

investigadores han demostrado que la “única” condición necesaria y suficiente para poder



estimar el verdadero poder predictivo de un modelo es comparar los valores predichos y

observados de una extensa (suficientemente larga) SP externa.(89-92)

1.3.8. Análisis de conglomerados (análisis de clusters).

El análisis de conglomerados (en inglés cluster) es un técnica multivariante que permite

agrupar los caso o variables de un archivo de dataos en función del parecido o similaridad

existente entre ellos. Como técnica de agrupación de casos el AC es similar al análisis

discriminante. Sin embargo, mientras el análisis discriminante efectúa la clasificación

tomando como referencia un criterio o variable dependiente (los grupos de clasificación), el

AC permite detectar el numero optimo de grupos y su composición únicamente a partir de la

similaridad existente entre los casos; además el AC no asume ninguna distribución especifica

para las variables (74). Un método muy utilizado es el conocido como de k medias, que es un

método de agrupación de casos que se basa en las distancias existentes entre ellos en un

conjunto de variables. El mismo agrupa los casos según su cercanía al centroide (centro

multivariado del cluster) del cluster más cercano; así continúa la lectura secuencial del

archivo de datos asignando cada caso al centroide más cercano y actualizando el valor de los

centroides a medida que se incorporan nuevos casos. El proceso termina cuando todos los

casos han sido asignados a uno de los k clusters.

1.4. Regulaciones de los Métodos QSAR.

La Organización para Cooperación Económica y Desarrollo (OECD) es una organización

intergubernamental en la cual los representantes de 30 países industrializados en

Norteamérica, Europa y la Asia y región Pacífica, así como la Comisión europea, se

encuentran para coordinar y armonizar políticas, hablar de cuestiones de interés mutuo, y

trabajar juntos para responder a problemas internacionales. La mayor parte del trabajo de

OECD es realizado por más de 200 comités especializados y grupos de trabajo formados por

delegados de países miembros. Los comités y los grupos de trabajo son coordinados desde la

secretaría de la organización, localizada en París, Francia, que es organizada en diferentes

secciones y divisiones.

La división de Medioambiente, Salud y Seguridad (EHS por sus siglas en ingles) publica

documentos gratuitos en diez series diferentes: Pruebas y Análisis; Buenas Práctica de



Laboratorio y Conformidad en Monitoreo; Pesticidas y Biocidas; Manejos de Riesgo;

Armonización Regulatoria en Biotecnología; Seguridad de Nuevas Comidas y Alimentos;

Accidentes Químicos; Liberación de Contaminantes y Registros de Transferencia;

Documentos de Guías de Emisión; y la Seguridad en la Fabricación de Nanomateriales. Más

información sobre La división de Medioambiente, Salud y Seguridad y publicaciones EHS

está disponible en el sitio de Web de la OECD (http://www.oecd.org/ehs/).

Los grupos de trabajo de OECD en QSAR y la Reunión Conjunta han concurrido que la

validación de estudios QSAR para objetivos reguladores son mejor realizados por las

autoridades reguladoras de los países miembros. En el futuro previsible, la aceptación de

estudios QSAR como una fuente de alternativa de datos (sin necesidad de realizar pruebas de

laboratorio) para la toma de decisiones estará basada en la fiabilidad y la transparencia de un

específico QSAR dentro de un contexto regulador específico. Por consiguiente, principios de

validación para un modelo QSAR son queridos para dirigir a las agencias reguladoras en la

evaluación e interpretación de los mismos durante procesos de toma de decisión específicos

en un nivel más alto que los criterios que solo solían juzgar la validez estadística. Sin

embargo, la transparencia de la interpretación estadística de un QSAR es la piedra angular

para el uso confiable con carácter regulatorio. Como la aceptación modelos QSAR crece para

llenar la necesidad de datos, es de esperar que la validez estadística permanezca como un

aspecto crucial mientras la interpretación mecanística y explicación de los resultados de los

modelos será requerida siempre que sea posible. Los 5 principios de la OECD que debe

cumplir un modelo QSAR para ser aceptado con fines regulatorios son:

1. un punto de medición definido;

2. un algoritmo inequívoco;

3. un dominio de aplicación definido;

4. apropiadas medidas de calidad de ajuste, robustez y predictibilidad;

5. una interpretación mecanística de ser posible

Un problema crucial de cualquier estudio QSAR es la identificación del dominio de aplicación

(DA) de un modelo de clasificación o de regresión. Pues, en efecto solo son validas las

predicciones para aquellos compuestos que estén dentro del dominio de aplicación. El DA es

aquella región teórica en el espacio químico, definido por los descriptores del modelos y la

respuesta modelada, y por todo esto a su vez por la naturaleza de los compuestos de la serie de



entrenamiento, representado en cada modelo por descriptores moleculares específicos. Se puede

decir por lo tanto, que el DA de un modelo QSAR en “el rango dentro del cual es tolerada una

nueva molécula (93). El dominio de aplicación de un modelo QSAR es la respuesta y el espacio

químico estructural en el cual el modelo realiza predicciones con una adecuada fiabilidad. Por lo

que no se puede pretender extrapolar el uso de los modelos QSAR para aquellos tipos de

compuestos que están fuera del dominio de aplicación (94).

Para la RLM, un enfoque muy empleado es el leverage (h), una medida basada en distancias. A

través del enfoque del leverage (95) es posible verificar si un nuevo compuesto esta dentro del

dominio de aplicación del modelo, el valor de h (95) de un compuesto mide la influencia de este

en el modelo. Los valores de leverage pueden ser calculados para los compuestos de la SE y

nuevos compuestos. En el primer caso, son útiles para encontrar aquellos compuestos que

influencian los parámetros del modelo, y que lo convierten en un modelo inestable. En el

segundo caso, son útiles para chequear el dominio de aplicación del modelo (93, 96). El leverage

crítico es el valor de corte realizado para el modelo en una base de datos. Valores por encima de

este leverage crítico son considerados no fiables. Solo las estructuras químicas predichas que

pertenezcan al dominio de aplicación deben tenerse en cuenta con gran nivel de fiabilidad.

Materiales y Método 23


MATERIALES Y MÉTODO

2.1 Obtención de la base de datos de toxicidad acuática sobre (Poecilia. Reticulata)

Los compuestos con sus respectivos valores experimentales de concentración letal media

(LC50, concentración en mg/L que produce la muerte del 50% de los animales empleados en

el ensayo luego de 96 horas de exposición al compuesto) para el pececillo (Poecilia.

Reticulata) fueron recopilados de varios artículos publicados (1, 57-59, 97-100). Se empleo

como variable dependiente la transformación logarítmica para los valores de LC50 de igual

manera que en previos estudios.

La recopilación bibliográfica nos permitió construir una base de datos de 300 compuestos de

los cuales 229 se emplearon para construir la serie de entrenamiento (SE) y la serie de

predicción (SP) 71. Se realizó un análisis de conglomerados a los compuestos que se

destinaron para construir la serie de entrenamiento y la serie de predicción con el objetivo de

garantizar representatividad estructural en ambas series. La compilación de datos de

toxicidad sobre (Poecilia. Reticulata) a partir de reportes bibliográficos recientes (1, 57-59,

97-100), nos permite desarrollar un modelo con un dominio de aplicación mayor que los

previamente reportados, lo cual es una característica deseable en este tipo de modelos.

2.2 Método Computacional. TOMOCOMD-CARDD software

Nuestro grupo de investigación ha introducido recientemente un nuevo programa interactivo

para el diseño molecular e investigaciones químio-bioinformáticas. Este programa se

denomina TOMOCOMD (acrónimo de TOpological MOlecular COMputer Design) (101) y

que ha sido desarrollado en la Universidad Central ‘Marta Abreu’ de Las Villas. En este

paquete computacional se ha implementado el cálculo de varias familias de descriptores

moleculares, basados en representaciones vectoriales y matriciales de la estructura molecular.

El programa está compuesto por cuatro sub-programas, cada uno de ellos con un módulo de

visualización y otro de cálculo. Los sub-programas son los siguientes: CARDD (Computed-

Aided ‘Rational’ Drug Design), CAMPS (Computed-Aided Modeling in Protein Science),

CANAR (Computed-Aided Nucleic Acid Research) y CABPD (Computed-Aided Bio-

Polymers Docking), por sus siglas en ingles. En esta tesis se han utilizado los cálculos

obtenidos con el primer sub-programa. Este ‘software’ fue desarrollado basado en una

interfase amigable con el usuario, el cual no tiene que dominar a priori ningún conocimiento



de programación computacional. Específicamente, en este trabajo se han utilizado los índices

cuadráticos totales y locales de la matriz de adyacencia entre vértices del ‘grafo’ usado para

la representación de la estructura química de las moléculas o bio-macromoléculas. Estos han

sido empleados en varios estudios QSAR, utilizando el ADL y la RLM como técnicas

estadísticas. En la Figura 2.1 se muestra la interfase gráfica del programa de cálculo

CARDD.

Los principales pasos para desarrollar un estudio QSAR utilizando el enfoque

TOMOCOMD, se resumen brevemente a continuación:

1. Representar el ‘grafo’ molecular de cada una de las moléculas de la base de datos a

analizar, usando el módulo de dibujo del software. Este procedimiento se lleva a cabo

seleccionando el átomo deseado perteneciente a diferentes grupos de la tabla

periódica en el momento de representar las moléculas.

2. Usar un ‘peso’ (etiqueta) apropiado de átomo, con el propósito de diferenciar cada tipo

de átomo en la molécula.

3. Computar los índices cuadráticos totales y locales de la matriz de adyacencia entre

vértices del ‘grafo’ que haya sido utilizado para la representación de la estructura

química de las moléculas. Este paquete computacional genera una tabla en la cual las

filas corresponden a los compuestos (casos) y las columnas a los índices moleculares

calculados.

A



B Figura 2.1. TOMOCOMD-CARDD Software: A, Ventana para seleccionar el módulo de trabajo. B, Interfase gráfica del sub-programa de diseño “in silico” de fármacos.

4. Encontrar una o varias ecuaciones QSAR usando técnicas estadísticas adecuadas, tales

como RLM, ADL, entre otras. Es decir, se encuentra una relación cuantitativa entre

una actividad A y la estructura química codificada con los descriptores calculados. En

este caso, la ecuación obtenida debe tomar la siguiente apariencia:

A = a0q0(x) + a1q1(x) + a2q2(x) +….+ akqk(x) + c (2.1)

donde A es la medida de la actividad, qk(x) [o qkL(x)] es el k-ésimo índice cuadrático

total o local, y los términos ak’s son los coeficientes obtenidos por el análisis

estadístico multivariable.

5. Probar la robustez y demostrar el poder predictivo de las ecuaciones QSAR obtenidas

usando procedimientos de validación interna y externa.

2.3. Análisis Estadístico de los Datos. Análisis de RLM.

Los modelos QSAR-RLM se obtuvieron con el paquete de programas estadísticos

STATISTICA (74). El método de selección de variables utilizado fue el de “pasos hacia

delante (‘forward stepwise’). En todos los casos el estadístico F y la tolerancia se usaron



para el control del proceder de selección. En este sentido, la colinealidad entre variables fue

examinada utilizando las matrices de correlaciones entre las variables incluidas en el

modelo. Siempre se utilizó, por defecto, como valor mínimo aceptable de tolerancia 0.01.

Los estadísticos usados para evaluar la calidad del modelo y el ajuste del mismo a los datos

experimentales fueron el coeficiente de correlación múltiple (R) y el cuadrado de su valor

(R2, coeficiente de determinación). La desviación estándar (s) y la F de Fischer (y/o el nivel

de significación del modelo y de cada variable, p ≤ 0.05) también se tuvieron en cuenta a la

hora del ajuste y selección de los modelos desarrollados.

La calidad predictiva de las ecuaciones desarrolladas se evaluó utilizando los estadísticos del

proceso de validación cruzada (VC, validación interna). En este sentido, fueron aplicados el

procedimiento de VC, LOO y LGO. Además, en cada caso se utilizaron series de validación

externas, para medir la estabilidad y el poder predictivo de los modelos QSAR obtenidos.


RESULTADOS Y DISCUSIÓN

3.1 Obtención de los Modelos en la Predicción de la Toxicidad Acuática.

Con el desarrollo de esta investigación se introduce por primera vez el empleo de los

descriptores TOMOCOMD-CARDD para la modelación del potencial ecotoxicológico de

compuestos orgánicos sobre pececillo Poecilia reticulata, conocido comúnmente como

guppys. La recopilación bibliográfica nos permitió construir una base de datos de 300

compuestos a los que se les aplicó un análisis de conglomerados realizado para garantizar la

representatividad estructural en ambas series (SE y SP). La SE empleada para entrenar los

modelos estaba formada por 229 compuestos quedando los 71 compuestos restantes como

una serie de predicción externa. Se debe destacar que la condición necesaria y suficiente para

asegurar el poder predictivo de un modelo es el análisis de los estadísticos para una serie de

predicción externa.

Durante el desarrollo de los modelos fueron detectados como outliers siete compuestos

(comp. No. 100, 109, 111, 239, 245, 258 y 278) para ambas ecuaciones (ver Tabla 3.1). Para

el modelo obtenido empleando los índices cuadráticos no-estocásticos basados en átomos se

detectaron otros cuatro compuestos con este comportamiento (comp. No. 118, 244, 253 y

268) mientras que para el modelo desarrollado con índices estocásticos también se detectaron

cuatro compuestos (comp. No. 112, 126, 220 y 246) adicionales. Como puede verse el

número máximo de compuestos extraídos fue de 11 para cada una de nuestras ecuaciones, si

tenemos en cuenta que el porcentaje comúnmente aceptado de outliers es de menos del 10%

de toda la base de datos (102, 103) y que el porcentaje de este tipo de compuestos para

nuestros modelos fue de 3.67%; entonces podemos decir que la extracción de outliers en

nuestro estudio esta dentro de los establecido en la literatura.

Los mejores modelos obtenidos para cada una de estas familias de índices se muestran a

continuación junto a sus parámetros estadísticos:

Log (LC50) = 4.741(±0.140) +0.022(±0.004)MEq0(x) -0.132(±0.017)PZq1(x)

+0.042(±0.007)PZq2(x) +5.99x10-8(±1.33x10-8)VdWq8H(x)

-6.20x10-5(±1.10x10-5)VdWq3(x) -4.46x10-4(±1.40x10-4)VdWq0L(xE)

-0.309(±0.053)logP (3.1)

N = 218 R2 = 0.807 s = 0.649 F = 125.08 p < 0.0001

q2 = 0.789 scv = 0.667 R2pred = 0.836

Resultados y Discusión 28


Log (LC50) = 4.740(±0.127) +0.587(±0.124)sMEq7LH(xE) -0.587(±0.123) sMEq9L

H(xE)

-1.510(±0.260) sPEq5H(x) +1.524(±0.261) sPEq7

H(x)

-1.87x10-3(±0.45x10-3) sVdWq1H(x) +3.46x10-3(±4.47x10-4) sVdWq2

H(x)

- 2.64x10-3 (±5.01x10-4 ) sVdW q14(x) (3.2)

N = 218 R2 = 0.808 s = 0.636 F = 126.22 p < 0.0001

q2 = 0.791 scv = 0.652 R2pred = 0.801

donde N es el número de compuestos empleados para entrenar el modelo, R2 es el

coeficiente de correlación; mientras que s es la desviación estándar del modelo. Los

estadísticos q2 y scv se corresponden al proceso de validación interna o cruzada LOO. Los

valores de toxicidad acuática sobre Poecilia Reticulata (guppy) predichos por el modelo para

la SE son mostrados en la Tabla 3.1 y las estructuras de los compuestos pueden ser vistas en

el Anexo 1. Los parámetros estadísticos mostrados por el modelo son adecuados, teniendo en

cuenta la complejidad de la base de datos empleadas así como su diversidad estructural.

Como puede observarse nuestra SE es más extensa que las publicadas hasta el momento y

fue desarrollada con el objetivo de ampliar el dominio de aplicación incluyendo una mayor

variedad de compuesto químicos con diferentes grupos funcionales. El modelo es capaz de

describir más del 80 % de la varianza experimental de los valores de toxicidad acuática y el

alto valor del coeficiente de determinación de la validación cruzada (q2 > 0.78) nos brinda

una idea sobre la robustez y el poder predictivo del modelo, esto en particular será tratado

mas extensamente en el próximo epígrafe donde además se realizara un análisis sobre el

dominio de aplicación. No obstante la condición necesaria y suficiente para asegurar el poder

predictivo de un modelo es analizar los resultados de una SP externa conformada por 71

compuestos, que no fueron empleados en la construcción del modelo.

Esta serie externa fue empleada para validar nuestro modelo y los valores predichos para

estas sustancias puede ser encontradas también en la Tabla 3.1 y las estructuras pueden ser

encontradas en el Anexo 2. Tres compuestos fueron detectados como outliers para esta serie

por cada una de las ecuaciones; para el modelo no-estocástico fueron los compuestos No. 99,

110 y 238, mientras que para el modelo estocástico fueron los compuestos No. 110, 176 y

238 los que tuvieron desviaciones estándar mayores que las aceptables. Un tratamiento mas

detallado respecto a estos compuestos será realizado en el epígrafe siguiente cuando se

aborde el tema del dominio de aplicación de los modelos.



Table 3.1. Valores experimentales y predichos [Log (LC50)] para la serie de entrenamiento y para la serie de predicción.

Serie de Entrenamiento Serie de Predicción Compuestos

Log (LC50) No-estocástico Estocástico No-estocástico Estocástico

001_Methanol 5.940 5.160 4.656 002_Ethanol 5.440 4.551 4.886 003_2-propanol 5.160 4.230 4.333 004_1-Butanol 4.370 3.680 4.179 005_Isobutanol 4.290 3.905 3.698 006_t-Butanol 4.680 4.047 3.916 007_3-Pentanol 4.050 3.358 3.223 008_1-Hexanol 2.980 2.967 2.758 009_1-Octanol 2.020 2.217 2.054 010_ 1-Nonanol 1.600 1.850 1.697 011_ 1-Decanol 1.190 1.488 1.353 012_1-Undecanol 0.790 1.128 1.006 013_1-Dodecanol 0.740 0.773 0.665 014_ 2-Methyl-2,4-pentanediol 4.960 3.486 3.600 015_Cyclohexanol 3.850 2.552 2.596 016_2,2,2-Trichloroethanol 3.310 2.850 2.456 017_2-Butoxyethanol 3.920 3.486 3.265 018_Acetone 5.100 4.102 4.547 019_2-Butanone 4.650 3.650 3.933 020_3-Pentanone 4.260 3.221 3.775 021_2-Octanone 2.450 2.130 3.012 022_5-Nonanone 2.340 1.746 2.830 023_2-Decanone 1.570 1.401 2.417 024_3-Methyl-2-butanone 4.010 3.393 3.474 025_6-Methyl-5-hepten-2-one 2.840 2.361 2.732 026_6-Methyl-5-hepten-2-one 3.130 2.268 2.119 027_3,3-Dimethyl-2-butanone 2.940 3.332 3.241 028_4-Methyl-2-pentanone 3.710 3.065 4.295 029_benzophenone 1.930 0.895 0.717 030_Cyclohexanone 3.730 2.535 3.474 031_Dipentylether 1.310 1.731 1.761 032_2-Hydroxy-4-methoxyacetophenone 2.520 2.575 2.017 033_Tetrachloromethane 2.640 3.001 2.619 034_Chlorobenzene 2.230 1.944 2.232 035_1,2-Dichlorobenzene 1.600 1.342 1.687 036_1,2,4-Trichlorobenzene 1.170 0.816 1.172 037_1,3,5-Trichlorobenzene 1.260 0.882 1.199 038_3,4-Dichlorotoluene 1.400 1.296 1.449 039_Toluene 2.870 2.416 2.488 040_4-Chloro-2-nitrotoluene 1.560 2.057 1.824 041_Nitrobenzene 3.030 2.650 2.448 042_2-Nitrotoluene 2.410 2.579 2.332 043_3-Nitrotoluene 2.350 2.593 2.156 044_4-Nitrotoluene 2.330 2.585 2.099 045_2,3-Dimethylnitrobenzene 1.610 2.506 2.007



Table 3.1. Cont… Serie de Entrenamiento Serie de Predicción

Compuestos Log

(LC50) No-estocástico Estocástico No-estocástico Estocástico

046_3,4-Dimethylnitrobenzene 1.790 2.512 1.796 047_Phenol 2.550 2.701 2.759 048_2-Methylphenol 2.230 2.604 2.607 049_3-Methylphenol 2.520 2.631 2.514 050_4-Methylphenol 2.260 2.629 2.501 051_2,4-Dimethylphenol 2.140 2.556 2.352 052_3,4-Dimethylphenol 2.080 2.542 2.242 053_2,3,6-Trimethylphenol 1.790 2.462 2.226 054_4-Ethylphenol 1.930 2.262 2.431 055_4-Propylphenol 1.910 1.935 2.182 056_4-t-Butylphenol 1.540 2.097 1.881 057_2-t-Butyl-4-methylphenol 1.100 2.060 2.000 058_4-n-Pentylphenol 0.880 1.225 1.441 059_4-t-Pentylphenol 1.190 1.688 1.530 060_2-Allylphenol 2.040 2.080 2.062 061_2-Phenylphenol 1.240 1.562 0.755 062_1-Naphthol 1.500 2.233 1.358 063_4-Chlorophenol 1.820 2.155 2.249 064_4-Chloro-3-methylphenol 1.670 2.046 2.059 065_4-Chloro-3,5-dimethylphenol 1.340 1.959 1.875 066_3-Methoxyphenol 2.780 2.848 2.606 067_4-Methoxyphenol 2.950 2.847 2.556 068_4-Phenoxyphenol 1.420 0.820 0.802 069_Quinoline 2.370 2.119 1.680 070_Aniline 3.090 2.617 2.627 071_2-Methylaniline 2.880 2.521 2.406 072_3-Methylaniline 2.530 2.552 2.348 073_4-Methylaniline 2.280 2.548 2.352 074_N,N-dimethylaniline 2.670 2.554 2.336 075_2-Ethylaniline 2.790 2.160 2.384 076_3-Ethylaniline 2.350 2.187 2.280 077_4-Ethylaniline 2.480 2.181 2.286 078_4-Butylaniline 1.840 1.502 1.643 079_2,6-Diisopropylaniline 1.940 1.440 1.786 080_2-Chloroaniline 1.690 2.035 2.144 081_3-Chloroaniline 2.020 2.075 2.125 082_2,5-Dichloroaniline 1.010 1.503 1.651 083_3,5-Dichloroaniline 1.380 1.545 1.636 084_3-Benzyloxyaniline 1.660 0.457 0.274 085_4-Hexyloxyaniline 1.220 0.215 0.730 086_2-Nitroaniline 1.850 2.708 2.440 087_3-Nitroaniline 2.760 2.721 2.242 088_4-Chloroaniline 2.330 2.073 2.109 089_2,4-Dichloroaniline 1.010 1.503 1.639 090_3,4-Dichloroaniline 1.610 1.478 1.593




Compuestos Log


091_2,3,4-Trichloroaniline 0.850 0.853 1.109 092_2,4,5-Trichloroaniline 1.080 0.917 1.130 093_4-Bromoaniline 2.440 1.823 1.989 094_α, α, α,4-Tetrafluoro-3-methylaniline 2.230 2.427 2.122 095_ α,α,α,4-Tetrafluoro-2-methylaniline 2.220 2.421 2.094 096_Pentafluoroaniline 2.310 2.169 2.523 097_2-Chloro-4-nitroaniline 2.070 2.147 1.677 098_4-Ethoxy-2-nitroaniline 2.150 2.353 2.113 099_1-Chloro-2,4-dinitrobenzene 0.190 -outlier- 1.266 100_2,4-dinitroaniline 4.480 -outlier- -outlier- 101_3,5-Dichloronitrobenzene 1.420 1.589 1.397 102_2-Chloronitrobenzene 2.280 2.083 2.001 103_3-Chloronitrobenzene 1.990 2.114 1.916 104_4-Chloronitrobenzene 1.580 2.110 1.865 105_2,3-Dichloronitrobenzene 1.340 1.494 1.446 106_2,4-Dichloronitrobenzene 1.540 1.555 1.433 107_2,5-Dichloronitrobenzene 1.410 1.558 1.483 108_2-Chloro-6-nitrotoluene 1.480 2.004 1.840 109_1,2-Dinitrobenzene 5.150 -outlier- -outlier- 110_1,3-Dinitrobenzene 4.640 -outlier- -outlier- 111_1,4-Dinitrobenzene 5.630 -outlier- -outlier- 112_2,4-Dinitrotoluene 4.160 2.652 -outlier- 113_Propionaldehyde 3.590 4.068 4.174 114_Butyraldehyde 3.720 3.658 4.121 115_Valeraldehyde 3.820 3.263 3.629 116_Hexylaldehyde 4.010 2.877 3.471 117_Heptylaldehyde 4.110 2.499 3.090 118_Octylaldehyde 4.210 -outlier- 2.843 119_Azinphos-methyl-2D-skeletal -0.740 -0.735 -0.896 120_Isobutyraldehyde 3.430 3.839 4.099 121_2-Methylbutyraldehyde 3.940 3.397 3.824 122_Isovaleraldehyde 4.420 3.440 4.153 123_1,1,2-trichloroethane 2.820 2.434 1.787 124_tetrachloroethene 1.980 1.864 2.235 125_trichloroethene 2.580 2.367 2.451 126_triethyleneglycol 5.650 4.234 -outlier- 127_1,3-dihydroxybenzene 2.960 2.870 2.773 128_1,2-dimethylpropylaminene 3.510 3.372 2.973 129_1-adamantaneamine 2.220 1.255 1.790 130_1-amino-2-propanol 4.520 4.284 4.021 131_1-methylheptylamine 1.600 2.104 2.260 132_2,2-dimethylpropylamine 3.740 3.712 3.634 133_2,3,4,5-tetrachloroaniline 0.190 0.361 0.613 134_2,3,4,5-tetrachlorophenol 0.480 0.443 0.726 135_2,3,4,6-tetrachlorophenol 0.670 0.477 0.742




Compuestos Log


136_2,3,5,6-tetrachlorophenol 0.740 0.477 0.748 137_2,3,5-trichlorophenol 1.080 1.003 1.254 138_2,3,6-trichlorophenol 1.440 0.972 1.243 139_2,3,5,6-tetrachloroaniline 0.070 0.386 0.666 140_2,3,6-trichloroaniline 1.270 0.879 1.162 141_2,4,5-trichlorophenol 0.800 1.002 1.244 142_2,4,6-tribromophenol 1.300 0.303 0.843 143_2,4,6-trichlorophenol 1.060 1.037 1.264 144_2,4-dichlorophenol 1.410 1.591 1.752 145_2,5-dichlorophenol 1.420 1.591 1.758 146_2,6-dichlorophenol 1.680 1.561 1.751 147_2,6-dimethylphenol 2.250 2.532 2.454 148_2-aminoethanol 4.540 4.677 4.269 149_2-chloro-4-methylphenol 2.400 2.070 2.025 150_1-chlorobutane 3.020 2.745 2.333 151_1,1-dichloroethane 3.310 3.204 2.597 152_1,1,1-trichloroethane 3.000 3.118 2.658 153_1,1,2,2-tetrachloroethane 2.230 1.949 1.433 154_1,2-dichloroethane 3.060 2.862 2.169 155_1,2-dichloropropane 3.010 2.654 2.270 156_1,2-ethanediol 5.900 4.871 4.483 157_1,2,3-trichlorobenzene 1.110 0.752 1.153 158_1,2,3-trichloropropane 2.450 1.903 1.315 159_1,2,3,4-tetrachlorobenzene 0.650 0.171 0.627 160_1,2,3,5-tetrachlorobenzene 0.570 0.235 0.650 161_1,2,4,5-tetrachlorobenzene 0.150 0.234 0.646 162_1,3-dichlorobenzene 1.720 1.407 1.710 163_1,4-dichlorobenzene 1.440 1.406 1.706 164_1,3-dichloropropane 2.870 2.453 1.831 165_2-ethoxyethanol 5.260 4.256 3.845 166_2-isopropoxyethanol 4.720 3.888 3.608 167_2-methoxyethanol 5.360 4.813 4.220 168_2,4-dichlorotoluene 1.460 1.305 1.500 169_2,4,5-trichlorotoluene 0.940 0.729 0.992 170_4-chlorotoluene 1.670 1.882 1.964 171_3-chlorotoluene 2.260 1.885 1.985 172_benzene 2.910 2.492 2.765 173_butyldigol 3.850 3.889 3.856 174_chloroform 2.930 3.023 2.451 175_dichloromethane 3.540 3.332 2.755 176_diethyleneglycol 5.760 4.527 -outlier- 177_diethylether 4.460 3.972 3.705 178_m-xylene 2.550 2.365 2.209 179_o-xylene 2.520 2.325 2.202 180_p-xylene 2.520 2.358 2.250




Compuestos Log


181_pentachlorobenzene -0.150 -0.319 0.112 182_pentachloroethane 1.740 1.747 1.544 183_2-chlorophenol 1.940 2.125 2.250 184_2-methoxyethylamine 3.840 4.621 3.963 185_3,3-dimethylbutylamine 3.780 3.306 3.353 186_3,4,5,6tetrachloro2hydroxyphenol 1.000 0.660 0.884 187_3,4,5trichloro2,6dimethoxyphenol 1.120 1.403 1.688 188_3,4,5-trichloro-2-methoxyphenol 1.030 1.189 1.394 189_3,4,5-trichlorophenol 0.920 0.969 1.228 190_3,5-dichlorophenol 1.220 1.623 1.769 191_3-chlorophenol 1.700 2.156 2.258 192_3-nitrophenol 1.930 2.800 2.364 193_4,5-dicloro-2-methoxyphenol 1.400 1.711 1.762 194_4-(n-methoxymrthyl)aminophenol 2.730 2.787 1.975 195_4-amino-2-nitrophenol 2.360 2.853 2.398 196_4-decylaniline -0.580 -0.403 -0.779 197_Bromophos 0.090 -0.672 -0.278 198_4-n-butylphenol 1.530 1.582 1.789 199_4-nitroaniline 2.770 2.717 2.160 200_4-nitrophenol 2.010 2.798 2.276 201_4-nonylphenol -0.200 -0.181 0.064 202_4-octylaniline -0.230 0.087 0.240 203_4-phenylazophenol 0.760 0.653 0.652 204_amylamine 3.310 3.160 3.028 205_benzylamine 2.980 2.523 2.506 206_butylamine 3.560 3.557 3.380 207_decylamine 0.820 1.295 1.342 208_dodecylamine -0.270 0.580 0.661 209_ethylamine 3.700 4.400 4.163 210_heptylamine 2.280 2.396 2.361 211_hexylamine 2.750 2.774 2.695 212_nonylamine 1.180 1.657 1.682 213_octylamine 1.600 2.024 2.027 214_propylamine 3.720 3.972 3.679 215_s-butylamine 3.580 3.632 3.416 216_t-octylamine 2.280 2.633 2.903 217_tridecylamine -0.460 0.227 0.324 218_undecylamine 0.090 0.936 1.000 219_1,4-dimethoxybenzene 2.930 2.830 2.350 220_2-(2-ethoxyethoxy)ethanol 5.300 3.972 -outlier- 221_2,6-dimethoxytoluene 2.130 2.748 2.322 222_2-phenoxyethanol 3.400 2.481 2.370 223_3-furanmethanol 3.720 3.594 3.344 224_dibutyl ether 2.400 2.463 2.563 225_diisopropyl ether 2.290 3.252 3.665



Table 3.1. Cont…. Serie de Entrenamiento Serie de Predicción

Compuestos Log


226_diphenyl ether 1.380 0.650 0.877 227_furan 2.960 3.457 3.461 228_hexachloroethane 0.810 1.485 1.680 229_t-butylmethyl ether 3.910 2.898 3.504 230_tetrahydrofuran 4.480 3.782 3.581 231_2-(2-buthoxyethoxy)ethanol 3.850 3.233 2.796 232_1,2,7,8-diepoxyoctane 1.670 2.409 2.475 233_1,2-epoxybutane 2.660 3.764 3.784 234_1,2-epoxydecane 1.320 1.508 1.894 235_1,2-epoxydodecane 0.780 0.793 1.179 236_1,2-epoxyhexane 2.270 2.987 3.186 237_1,2-epoxyoctane 1.910 2.238 2.587 238_1,3-butadienediepoxide 1.490 -outlier- -outlier- 239_1,4-dichloro-2-butene -0.160 -outlier- -outlier- 240_1-chloro-2-butene 1.820 2.636 2.480 241_2,2-dichlorodiethyl ether 2.540 2.653 1.776 242_2,3-dichloropropene 1.010 2.584 2.615 243_2,4-R-trichlorotoluene 0.080 0.592 0.512 244_2,5-dinitrophenol 1.000 -outlier- 1.752 245_2-butenal 0.900 -outlier- -outlier- 246_2-ethylbutenal 1.890 2.972 -outlier- 247_2-furaldehyde 2.040 3.417 3.013 248_Etrinfos 1.090 0.673 1.728 249_2-s-butyl-4,6-dinitrophenol 0.170 1.889 1.088 250_3-chloro-1-butene 1.850 2.652 3.037 251_3cyclohexene1carboxaldehyde 1.010 2.269 2.579 252_Ronnel 0.000 -0.415 -0.152 253_4-dinitrobenzylbromide -0.300 -outlier- 0.356 254_allyl chloride 1.200 2.955 2.929 255_benzaldehyde 1.570 2.608 2.331 256_benzyl chloride 0.490 1.689 1.491 257_Proclonol 0.010 -0.978 -1.340 258_chloroacetone 0.880 -outlier- -outlier- 259_cyclohexanecarboxaldehyde 1.910 2.292 3.075 260_decanal 1.310 1.523 2.105 261_alpha,alpha,-Dichloro-mxylene -0.160 0.932 0.216 262_2,4-dichloroacetophenone 1.800 1.190 1.102 263_ethanal 2.900 4.497 4.432 264_glycidol 2.830 4.455 4.006 265_Phosmet -0.120 -0.335 -0.884 266_hexachlorobutadiene -0.200 -0.029 0.540 267_Phenthoate -0.990 -0.726 -0.734 268_methanal 2.960 -outlier- 4.557 269_Methylparathion 0.610 1.281 1.055 270_pentachlorophenol 0.220 -0.075 0.232




Compuestos Log


271_Methylisocyanothion 0.230 0.989 0.776 272_Methidathion -0.960 0.002 -0.589 273_propylene oxide 2.740 4.197 3.986 274_styrene oxide 1.770 2.430 1.883 275_4-hexylresorcinol 0.720 1.023 1.335 276_2,3,4-trimethoxyacetophenone 2.920 2.734 2.502 277_acrylamide 2.690 3.794 3.687 278_allyl alcohol 1.160 -outlier- -outlier- 279_decamethrin -2.340 -2.860 -2.859 280_fluoroacetamide 2.880 4.472 4.466 281_2-Methyl-1-propanol 4.290 3.946 3.756 282_2-Methyl-2-propanol 4.680 4.072 4.517 283_Lindane -0.690 -1.076 -1.445 284_Methyl tert-butyl ether 3.910 3.946 3.465 285_Iodofenphos 0.320 -0.406 -0.311 286_1,2-Dibromobenzene 0.970 0.802 1.383 287_Ethylbenzene 1.960 2.048 2.435 288_Isopropylbenzene 1.630 1.869 2.183 289_fenthion 0.890 0.077 0.366 290_Acetonitrile 4.600 4.217 4.426 291_Fenitrothion 1.000 1.235 1.016 292_Disulfiram -1.650 -0.528 -2.245 293_Dicapthon 0.430 0.527 -0.139 294_Cyanophos 1.750 1.452 1.139 295_Propylbenzene 1.660 1.721 2.196 296_Butylbenzene 1.410 1.369 1.777 297_Chlorthion -0.190 0.734 0.547 298_4-Ethoxy-3-nitroaniline 2.150 2.363 2.199 299_Thiomedon 1.530 0.931 1.330 300_Lethane 0.760 1.597 1.241

3.2. Cumplimiento de los principios de la OECD.

A continuación veremos el cumplimiento de estos principios en nuestro estudio. En cuanto al

primer principio referido a un punto de medición definido en nuestro estudio fue la

concentración letal media (LC50). El algoritmo seguido en nuestro trabajo no presenta

ambigüedades y fue descrito en el Capitulo 2 donde puede ser consultado. El tercer principio

lo trataremos con un mayor detalle debido a la importancia que tiene el mismo.

Un problema crucial en los estudios quimiométricos y QSAR es la definición del Dominio de

Aplicación (DA) de un modelo de clasificación o regresión. “Incluso de un modelo QSAR

robusto, significativo y validado no pueden esperarse predicciones fiables de la propiedad

modelada para el universo completo de compuestos químicos. En efecto, solo las



predicciones para los compuestos que caen dentro del dominio de aplicación pueden

considerarse fiables y no las extrapolaciones de los modelos”(96) En consecuencia, no se

puede pretender extrapolar el uso de los modelos para otros tipos de compuestos que este

fuera del DA, haciendo predicciones inciertas.

En este caso, para visualizar el DA de un modelo QSTR, utilizamos un gráfico de William,

donde se emplean los residuales estandarizados (primera y segunda ordenada) y los

leverages, (h). Los valores de h definen el DA del modelo como el área cuadrada en el

intervalo de ±3 para los residuales, un valor de corte para la aceptación de las predicciones,

pues los puntos que caen dentro de estos valores de residuales estandarizados a partir de la

media cubren el 99% de la data normalmente distribuida. Además un valor de leverage

umbral de h = 0.0963 fue calculado como el valor de leverage critico (h*) para la predicción

de la toxicidad acuática sobre P. reticulata. El grafico de William puede ser usado para una

detección grafica e inmediata de ambos tipos de respuestas outliers (es decir compuestos con

residuales estandarizados mayores que las tres unidades de desviación estándar, >3σ,) y

compuestos que influyen estructuralmente en el modelo (h>h*).

A continuación se muestran los gráficos de William para los modelos desarrollado con índices

no-estocásticos y con índices estocásticos respectivamente:

Dominio de Aplicacionmodelo no-estocastico

Entrenamiento Prediccion

0.00 0.02 0.04 0.06 0.08 0.10 0.12 0.14 0.16 0.18 0.20 0.22 0.24

Leverage

-4

-3

-2

-1

0

1

2

3

4

-4

-3

-2

-1

0

1

2

3

4

Figura 3.1. Gráfico de Dominio de Aplicación para el modelo desarrollado con índices no-estocásticos



Dominio de Aplicacion

Modelo estocastico

Entrenamiento Prediccion

0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40

Leverage

-5

-4

-3

-2

-1

0

1

2

3

4

5

-5

-4

-3

-2

-1

0

1

2

3

4

5

Figura 3.2 Gráfico de Dominio de Aplicación para el modelo desarrollado con índices estocásticos

Como se puede observar en esta Figura 3.1 la mayoría de los compuestos están dentro de esta

área. Solo algunos compuestos (12 compuestos) de los 218 compuestos de la serie de

entrenamiento tuvieron valores de leverage más alto que el umbral prefijado, pero sus residuales

estandarizados estuvieron dentro de los límites. Para la serie de predicción solo un compuesto

(Lindano) presento un valor de leverage mayor que el valor critico, mientras que tres compuestos

de esta serie fueron predichos incorrectamente; uno de ellos (Comp. No. 238) con σ >-3 y otro

dos con valores muy cercanos a 3σ (-2.93 y 2.894 para los compuestos 099 y 110,

respectivamente), los mismos fueron identificados como outliers. A continuación se muestra el

gráfico de William para el modelo desarrollado con índices estocásticos:

Por otra parte en la Figura 3.2, correspondiente al modelo estocástico, puede verse que también

la mayoría de los compuestos están dentro de esta área, solo diez compuestos (de 218

compuestos) de la serie de entrenamiento tuvieron valores de leverage más alto que el umbral

prefijado, pero sus residuales estandarizados estuvieron dentro de los límites. El comportamiento

para la serie de predicción fue muy similar pues solo un compuesto (Lindano) presento un valor

de leverage mayor que el valor critico. En cuanto a las desviaciones estándar, tres compuestos de

esta serie fueron predichos incorrectamente; dos compuestos (comp. No. 110 y 238) tuvieron



valores mayores de ±3σ y el otro con un valor de σ de 2.82 (para el compuesto No. 176), los

mismos fueron identificados como outliers.

Para chequear el cumplimiento del cuarto principio de la OECD para nuestros modelos

desarrollamos una validación interna. La validación cruzada (VC) que consiste en la operación

de hacer un numero (G) de reducidas modificaciones al conjunto de compuestos de la data

original y entonces se calcula la precisión de las predicciones de cada uno de los resultados de

los modelos. Con el objetivo de demostrar la robustez de nuestros modelos, se escogió la tecnica

de VC conocida como dejando-n%-fuera (Leave-n-out).

En las Figuras 3.3 y 3.4 se ilustran los resultados de este proceso de validación dejando varios

tamaños de grupos fuera, es decir, el 5,10,15,20, 25 y 30% de la SE, representados en el eje de

las abcisas por 5%, 10%, 15%, 20%, 25% y 30%, respectivamente. En el eje de la ordenada (Y)

se muestra el valor del coeficiente de determinación y el valor del q2 obtenido para cada modelo

luego de realizársele la perturbación correspondiente. De este resultado puede concluirse que el

modelo presenta una gran estabilidad a perturbaciones dentro de la base de datos.

validacion cruzadamodelo no-estocastico

R2

q2modelo 5% 10% 15% 20% 25% 30%

porcentaje de perturbacion

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

Figura 3.3 Comportamiento del modelo 3.1 en la Validación Cruzada (LGO).



validacion cruzadamodelo estocastico

R2

q2modelo 5% 10% 15% 20% 25% 30%

porcentaje de perturbacion

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

Figura 3.4 Comportamiento del modelo 3.2 en la Validación Cruzada (LGO).

3.3. Empleo de los modelos desarrollados para la predicción del potencial ecotoxicológico

de compuestos Ocioso y Caducos de la UCLV.

El ‘screening’ virtual es una interesante alternativa para el evaluar la toxicidad de compuestos

químicos. En este sentido, esta tesis propone utilizar dicho enfoque con el objetivo de predecir la

toxicidad acuática de medicamentos. Este nuevo enfoque permitirá predecir la toxicidad de

compuestos orgánicos y por tanto, valorar el impacto que tendrían la presencia de los mismos

sobre el medio ambiente.

Partiendo de la estructura molecular de los compuestos y utilizando el TOMOCOMD se puede

evaluar, en los modelos antes obtenidos, una gran cantidad de moléculas, para nuestro estudio

serán los reactivos que forman parte de la lista de ociosos y caducos de la UCLV. Es importante

destacar, que los compuestos a evaluar deben cumplir el requisito obligatorio de que su

estructura química se encuentre en el dominio de aplicación de los modelos, lo cual se tuvo en

cuenta en el presente estudio. Este análisis se puede observar tanto para el modelo no-estocástico

como para el estocástico en las Figuras 3.5 y 3.6, respectivamente. Entre las sustancias de esta

base de datos de reactivos ociosos y caducos se selecciono un grupo a los cuales, se les predijo



su toxicidad acuática. La lista de reactivos considerados aquí junto a la toxicidad acuática

predicha para los mismos por cada uno de los modelos desarrollados puede ser encontrada a

continuación en la Tabla 3.2.

Tabla 3.2. Compuestos de la base de datos de reactivos Ociosos Caducos y Peligrosos y sus valores de toxicidad predichos por los modelos no estocastico (Eq. 3.1) y estocastico (Eq. 3.2) Nombre Eq. 3.1 Eq. 3.2 Nombre Eq. 3.1 Eq. 3.2 1,10-phenanthroline 2.908 0.843 buthyl ether 2.584 2.563 1-bromobutane 1.891 1.793 cyclohexyl amine 2.669 2.757 1-bromonaphthalene 2.196 0.739 diethanolaminie 3.350 3.726 1-pentanol 3.165 3.105 diethyl carbonate 3.385 4.761 2,2'-bipyridine 3.779 1.641 diethyl malonate 2.704 3.671 2,6-dinitrophenol 2.382 1.960 diethyl sulfate 4.827 3.894 2-chloropropane 4.356 3.218 diethyl sulfide 3.119 2.276 2-pentanol 3.378 3.518 ethanol amine 4.245 4.269 3-bromo-1-nitrobenzene 1.770 1.849 ethyl bromide 3.934 2.335 4-bromotoluene 2.410 1.789 ethyl formate 3.946 4.384 4-methylnitrobenzene 2.419 2.352 ethylamine 3.855 4.163 aminoacetic acid 3.655 4.625 ethylene chlorhydrin 4.103 3.333 aniline hydrochloride 2.782 2.627 methanesulfonyl chloride 3.823 3.731 benzamide 2.758 2.180 o-cresol 3.463 2.607 benzanilide 0.672 0.428 o-toluidine 2.852 2.406 Benzidine 1.974 0.415 succinic acid, disodium salt 2.986 3.498 benzoyl bromide 2.087 1.320 trimethylamine hydrochloride 5.249 4.489 benzoyl chloride 1.900 1.559

Como puede ser observado en la Figura 3.5 cinco compuestos de la base de datos de ociosos y

caducos de la UCLV tiene valor de leverage mayor que el valor crítico. Estos compuestos son el

2,2'-bipyridine (h=0.3919), 1,10-phenanthroline (h=0.3392), benzidine (h=0.1364), diethyl

sulfate (h=0.1278) y 1-bromonaphthalene (h=0.1416); debido a que se encuentran fuera del DA

del modelo no-estocástico las predicciones para estos compuestos empleando este modelo no son

fiables y por tanto se excluyen del análisis ulterior. Por otra parte, tomando en cuenta los

resultados mostrados en la Figura 3.6 se evidencia que también cinco compuestos presentaron un

valor de h>h* y como se encuentran por tanto fuera del DA del modelo no fue tomada en

consideración la predicción de la toxicidad de los mismos por el modelo estocástico. Para este

modelo los compuestos fuera del dominio de aplicación fueron: diethyl sulfate (h=0.4598),

diethyl carbonate (h=0.1243), 2,2'-bipyridine (h=0.1032), diethyl malonate (h=0.1011), y

methanesulfonyl chloride (h=0.0996)



Ploteo de los Ociosos y Caducosen el DA del modelo no-estocastico

SE Ociosos y/o Caducos

0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40

Leverage

-4

-3

-2

-1

0

1

2

3

4

-4

-3

-2

-1

0

1

2

3

4

Figura 3.5. Ploteo de los reactivos Ociosos y/o Caducos en el dominio de Aplicación del Modelo no-estocástico

Ploteo de Ociosos y Caducosen el DA del modelo estocastico

SE Ocioso y/o Caducos

0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50

Leverage

-4

-3

-2

-1

0

1

2

3

4

-4

-3

-2

-1

0

1

2

3

4

Figura 3.6. Ploteo de los reactivos Ociosos y/o Caducos en el dominio de Aplicación del Modelo no-estocástico



Si tenemos en cuenta que:

Mayores valores de LC50 indican menor toxicidad y a su vez, menores valores de LC50 indican

mayor toxicidad.

Entonces, el valor LC50 que se obtiene del modelo, traducido en términos propiamente dicho de

toxicidad, no solamente permite establecer un orden de toxicidad sino que además, permite

estimar el posible impacto que tendrían estas sustancias al ser incorporadas al medio,

específicamente el acuático, fundamentalmente porque este tipo de medio es uno de los más

sensibles a la acción de las sustancias químicas. Considerando el medio acuático la base o factor

común en muchos ecosistemas, predecir el impacto sobre el mismo de los compuestos ocioso y

caducos de la UCLV, posibilitará tener una idea de la magnitud del desajuste ambiental que se

produciría si alguna o varias de estas sustancias, son vertidas al medio ambiente sin tratamiento

previo por una incorrecta disposición final o accidente

En el Anexo 3 se han ordenado en orden descendiente de toxicidad los reactivos ociosos y/o

caducos mostrados en la Tabla 3.2 con respecto al benceno, tanto para las predicciones del

modelo no-estocástico como las del modelo estocástico. Mas del 50% de los reactivos, a los

cuales se les predijo la toxicidad, se encuentran según el modelo estocástico ubicados por encima

del benceno, para el cual se reporta un valor de log(LC50)= 2.910 en P. promelas (experimental).

Por otra parte el porcentaje de los reactivos predichos por el modelo basado en índices no-

estocásticos que presentaron mayor toxicidad que el benceno estuvo muy cerca del 50%. Este

orden de toxicidad da una idea del carácter tóxico y el riesgo potencial que pueden ofrecer los

reactivos ociosos y caducos de la UCLV hacia el medio acuático.

Los resultados obtenidos en este trabajo son aun preliminares y se necesitan estudios más

profundos para corroborarlos. Sin embargo, estos resultado nos colocan en las puertas de un

nuevo universo de posibilidades para la estimación del riesgo ecotoxicológico, así como también

abren un nuevo campo el que podemos aplicar los estudios teóricos basados en estudios de

toxicidad (QSTR) con el objetivo de ahorrar recursos y aportar una nueva herramienta para la

toma de decisiones en estudios ambientales.


CONCLUSIONES

Se conformo una base de datos de toxicidad acuática de compuestos químicos sobre

el pez Poecilia Reticulata a partir de reportes en la literatura.

Se desarrollaron dos modelos QSTR que permiten predecir la toxicidad acuática de

compuestos orgánicos sobre el pez P. Reticulata.

Los modelos obtenidos fueron validados mediante procesos de validación tanto

interna como externa y se determino además el dominio de aplicación de ambos

modelos.

Se tamizó una muestra de los reactivos de la base de datos de productos ociosos y

caducos de la UCLV y fueron ordenados de acuerdo a la toxicidad predicha por los

modelos para cada compuesto.


RECOMENDACIONES

Desarrollar modelos QSTR empleando otras familias de descriptores implementados

en el software TOMOCOMD-CARDD.

Desarrollar estudios experimentales que permitan la corroboración experimental de

las predicciones teóricas realizadas.

Emplear las predicciones realizadas sobre los productos ociosos y caducos de la

UCLV como una guía para la toma de decisiones en cuanto a su manejo y

eliminación.

Referencias Bibliográficas g


REFERENCIAS BIBLIOGRÁFICAS

1. Hoover KR, Acree WE, Abraham MH. Chemical Toxicity Correlations for Several

Fish Species Based on the Abraham Solvation Parameter Model. Chem Res

Toxicol2005;18:1497-505.

2. Verhaar HJM, Urrestarazu E, Hermens JLM. Classifying environmental pollutants. 2:

separation of class 1 (baseline toxicity) and class 2 (‘polar narcosis’) type compounds based

on chemical descriptors. J Chemomet1996;10:149-62.

3. Levin SA, Harwell MA, Nelly JR, K.D. K. Ecotoxicology: problems and approaches.

. New York: Springer-Verlag; 1989.

4. Gutiérrez PA, Ongay JP, Vercesi ML. Gerencia Ambiental2000;65:394-9.

5. Ausley LW. Reflection on whole effluent toxicity: The pellston workshops. Environ

Toxicol Chem2000;190(1):1-2.

6. Mitchell JAK, Burgess JE, Stuetz RM. Developments in ecotoxicity testing. Revs

Environ Sci BioTech2002;1:169-98.

7. JingWen C, XueHua L, HaiYing Y, YaNan W, XianLiang Q. Progress and

perspectives of quantitative structure-activity relationships used for ecological risk

assessment of toxic organic compounds. Sci China Ser B-Chem 2008;51:593-606.

8. Dimitrov S, Breton R, MacDonald D, Walker JD, Mekenyan O. Quantitative

prediction of biodegradability, metabolite distribution and toxicity of stable metabolites. SAR

and QSAR in Environmental Research2002;13(3):445 - 55.

9. Ivanciuc T, Ivanciuc O, Klein DJ. Posetic Quantitative Superstructure/Activity

Relationships (QSSARs) for Chlorobenzenes. J Chem Inf Model2005;45(4):870-9.

10. Casalegno M, Benfenati E, Sello G. An Automated Group Contribution Method in

Predicting Aquatic Toxicity: The Diatomic Fragment Approach. Chem Res

Toxicol2005;18(4):740-6.

11. Mazzatorta P, Benfenati E, Neagu CD, Gini G. Tuning Neural and Fuzzy-Neural

Networks for Toxicity Modeling. J Chem Inf Comput Sci2003;43(2):513-8.

12. OECD. Guidance Document on the Validation of (Quantitative)Structure-Activity

Relationships [(Q)SAR] Models. No. 69, OECD, Paris. . (2007). p.

<http://www.oecd.org/document/30/0,3343,en_2649_34377_1916638_1_1_1_1,00.html>



accessed July 2008.

13. Marrero-Ponce Y, Cabrera M, A., Romero V, Ofori E, Montero LA. Total and Local

Quadratic Indices of the “Molecular Pseudograph’s Atom Adjacency Matrix”. Application to

Prediction of Caco-2 Permeability of Drugs. Int J Mol Sci 2003;4:512-36.

14. Marrero-Ponce Y. Total and Local Quadratic Indices of the Molecular Pseudograph´s

Atom Adjacency Matrix: Applications to the Prediction of Physical Properties of Organic

Compounds. Molecules2003;8:687-726.

15. Marrero-Ponce Y. Linear indices of the "molecular pseudograph's atom adjacency

matrix": definition, significance-interpretation, and application to QSAR analysis of flavone

derivatives as HIV-1 integrase inhibitors. J Chem Inf Comput Sci2004 Nov-Dec;44(6):2010-

26.

16. Marrero-Ponce Y, Castillo-Garit JA, Torrens F, Romero-Zaldivar V, Castro E. Atom,

Atom-Type, and Total Linear Indices of the ¨Molecular Pseudograph´s Atom Adjacency

Matrix¨: Application to QSPR/QSAR Studies of Organic Compounds. Molecules

2004;9:1100-23.

17. Marrero-Ponce Y. Total and local (atom and atom type) molecular quadratic indices:

significance interpretation, comparison to other molecular descriptors, and QSPR/QSAR

applications. Bioorg Med Chem 2004; 12: 6351-69.

18. Marrero Ponce Y, Meneses-Marcel A, Castillo Garit JA, Machado-Tugores Y,

Escario JA, Barrio AG, et al. Predicting antitrichomonal acitivity: A computational screening

using atom-based bilinear indices and experimental proofs. Bioorg Med Chem2006;14:6502-

24.

19. Marrero-Ponce Y, Cabrera MA, Romero-Zaldivar V, Bermejo M, Siverio D, Torrens

F. Prediction of Intestinal Epithelial Transport of Drug in (Caco-2) Cell Culture from

Molecular Structure using in silico Approaches During Early Drug Discovery. Internet

Electron J Mol Des2005;4 124-50.

20. Marrero-Ponce Y, Castillo-Garit JA, Olazabal E, Serrano HS, Morales A, Castañedo

N, et al. TOMOCOMD-CARDD, a novel approach for computer-aided 'rational' drug design:

I. Theoretical and experimental assessment of a promising method for computational

screening and in silico design of new anthelmintic compounds. J Comput-Aided Mol

Design2004 Oct;18(10):615-34.



21. Marrero-Ponce Y, Castillo-Garit JA, Olazabal E, Serrano HS, Morales A, Castanedo

N, et al. Atom, atom-type and total molecular linear indices as a promising approach for

bioorganic and medicinal chemistry: theoretical and experimental assessment of a novel

method for virtual screening and rational design of new lead anthelmintic. Bioorg Med

Chem2005 Feb 15;13(4):1005-20.

22. Marrero-Ponce Y, Iyarreta-Veitia M, Montero-Torres A, Romero-Zaldivar C, Brandt

CA, Avila PE, et al. Ligand-based virtual screening and in silico design of new antimalarial

compounds using nonstochastic and stochastic total and atom-type quadratic maps. J Chem

Inf Model2005 Jul-Aug;45(4):1082-100.

23. Castillo-Garit JA, Marrero-Ponce Y, Torrens F. Atom-based 3D-chiral quadratic

indices. Part 2: prediction of the corticosteroid-binding globulinbinding affinity of the 31

benchmark steroids data set. Bioorg Med Chem2006 Apr 1;14(7):2398-408.

24. Castillo-Garit JA, Marrero-Ponce Y, Torrens F, García-Domenech R. Estimation of

ADME Properties in Drug Discovery: Predicting Caco-2 Cell Permeability Using Atom-

Based Stochastic and Non-Stochastic Linear Indices. J Pharm Sci2008;97:1946-76.

25. Castillo-Garit JA, Marrero-Ponce Y, Torrens F, Rotondo R. Atom-based Stochastic

and non-Stochastic 3D-Chiral Bilinear Indices and their Applications to Central Chirality

Codification. J Mol Graphics Model2007;DOI:10.1016/j.jmgm.2006.09.007.

26. Marrero-Ponce Y, Montero-Torres A, Zaldivar CR, Veitia MI, Perez MM, Sanchez

RN. Non-stochastic and stochastic linear indices of the 'molecular pseudograph's atom

adjacency matrix': application to 'in silico' studies for the rational discovery of new

antimalarial compounds. Bioorg Med Chem2005 Feb 15;13(4):1293-304.

27. Marrero-Ponce Y, Castillo-Garit JA. 3D-chiral Atom, Atom-type, and Total Non-

stochastic and Stochastic Molecular Linear Indices and their Applications to Central

Chirality Codification. J Comput-Aided Mol Design2005 Jun;19(6):369-83.

28. Marrero-Ponce Y, Medina R, Castro EA, de Armas R, González H, Romero V, et al.

Protein Quadratic Indices of the ¨Macromolecular Pseudograph´s α-Carbon Atom Adjacency

Matrix¨. 1. Prediction of Arc Repressor Alanine-mutant´s Stability. Molecules 2004;9 1124-

47.

29. Marrero-Ponce Y, Nodarse D, González HD, Ramos de Armas R, Romero-Zaldivar

V, Torrens F, et al. Nucleic Acid Quadratic Indices of the ¨Macromolecular Graph´s



Nucleotides Adjacency Matrix¨. Modeling of Footprints after the Interaction of

Paromomycin with the HIV-1 Ψ-RNA Packaging Region. Int J Mol Sci 2004;5:276-93.

30. Marrero-Ponce Y, Medina-Marrero R, Castillo-Garit JA, Romero-Zaldivar V, Torrens

F, Castro EA. Protein linear indices of the 'macromolecular pseudograph alpha-carbon atom

adjacency matrix' in bioinformatics. Part 1: prediction of protein stability effects of a

complete set of alanine substitutions in Arc repressor. Bioorg Med Chem2005 Apr

15;13(8):3003-15.

31. Marrero Ponce Y, Castillo Garit JA, Nodarse D. Linear indices of the

'macromolecular graph's nucleotides adjacency matrix' as a promising approach for

bioinformatics studies. Part 1: prediction of paromomycin's affinity constant with HIV-1 psi-

RNA packaging region. Bioorg Med Chem2005 May 16;13(10):3397-404.

32. Cabrera J, Solano,.Y. Fertilidad y fecundidad en Poeciliopsis turrubarensis (Pisces:Poeciliidae). Rev

BiolTrop1995.; 43::317-20.

33. Zúñiga GE, editor. Especies potencialmente cultivables para ornato (peces,plantas e

invertebrados). Memorias Primer Encuentro Nacional de Acuariofilia; 1997.;

México,D.F.México.

34. Gómez-Márquez L, Guzmán-Santiago, J.L. &A. Olvera-Soto. Reproducción y

crecimiento de Heterandria bimaculata (Cyprinodontiformes: Poeciliidae)en la Laguna "El

Rodeo ",Morelos, México. RevBiolTrop1999.;47:581-92.

35. Urriola Hernández M, Cabrera Peña, J., Protti Quesada, M. Composición,crecimiento

e índice de condición de una población de Poecilia reticulata (Pisces:Poeciliidae),en un

estanque en Heredia, Costa Rica. RevBiolTrop2004.;52::157-62.

36. Morales ZM. Aquaguía. Revista especializada en acuariofilia y otras mascotas

Naucalpan, México1996.

37. Devezé Murillo P, Reta Mendiola JL, Sánchez Luna B. Cultivo de Poecilia reticulata

(Pisces:Poecilidae) en cuerpos de agua tropicales,Veracruz,México. Rev biol trop 2004;52

951-8.

38. Breden F. Guppies. Curr Biol2006;16:R865-R6.

39. Adams SM, M.S. Greeley. . Ecotoxicological indicators of water quality: using

multi-response indicators to assess the health of aquatic ecosystems. Water, Air and Soil

Pollution 2000.;123:103-15. .



40. Iannacone J, Alvariño, L. . Selectividad del insecticida cartap empleando bioensayos

con organismos no destinatarios. Ecología Aplicada2005; 4::91-104.

41. Iannacone J, Alvariño, L. . Ecotoxicidad aguda del zinc sobre el ``guppy'' Poecilia

reticulata. Wiñay Yachay 1998.;2(3):: 67-74.

42. Hawkins WE, Walker,W.W., Fournie, J.W., Manning, C.S., Krol, R.M. . Use of the

Japanese medaka (Oryzias latipes) and guppy (Poecilia reticulata) in carcinogenesis testing

under national toxicology program protocols. . Toxicol Pathol 2003. ; 31(1):88-91.

43. Hinton DE, Kullman, S.W., Hardman, R.C., Volz, D.C., Chen, P.J., Carney, M.,

Bencic, D.C. . Resolving mechanisms of toxicity while pursuing ecotoxicological relevance?

. Mar Pollut Bull2005.; 51,: 635-48.

44. Moore MN. Biocomplexity: the post-genome challenge in ecotoxicology. . Aquat

Toxicol 2002. ;59:1-15.

45. Wittbrodt J, Shima, A., Schartl, M. . Medaka-a model organism from the far East.

Nat Rev Genet2002. ;3,: 53-64.

46. Iannacone J, Alvariño, L., Gutierrez. A.R. . Cinco ensayos ecotoxicológicos para

evaluar metales pesados en el agua dulce. Boletín de la Sociedad Quimica del Perú 1999.;65::

30-45.

47. Dodd A, Curtis, P.M., Williams, L.C., Love, D.A., . , . Zebrafish: bridging the gap

between development and disease. Hum. Mol. Genet. 2000;9:2443-9.

48. Castro BB, Sobral, O., Guilhermino, L., Ribeiro, R. . An in situ bioassay integrating

individual and biochemical responses using small fish species. Ecotoxicology2004;13:667-

81.

49. Wolf JC, Dietrich, D.R., Friederich, U., Caunter, J., Brown, A.R. . Qualitative and

quantitative histomorphologic assessment of fathead minnow Pimephales promelas gonads as

an endpoint for evaluating endocrine-active compounds: a pilot methodology study. Toxicol

Pathol2004;32:600- 12.

50. Volz DC, Bencic, D.C., Hinton, D.E., Law, J.M., Kullman, S.W. . 2,3,7,8-

Tetrachlorodibenzo-p-dioxin (TCDD) induces organ-specific differential gene expression in

male Japanese medaka (Oryzias latipes). . Toxicol Sci2005; 85:572-84.



51. Carter AJ, Wilson, R.S. . Improving sneaky-sex in a low oxygen environment:

reproductive and physiological responses of male mosquito fish to chronic hypoxia. J Exp

Biol2006. ; 209: 4878-84.

52. Kissling GE, Bernheim, N.J., Hawkins, W.E., Wolfe, M.J., Jokinen, M.P., Smith,

C.S., Herbert, R.A., Boorman, G.A., , . The utility of the guppy (Poecilia reticulata) and

medaka (Oryzias latipes) in evaluation of chemicals for carcinogenicity. Toxicol Sci 2006.;

92:143-56.

53. Brosnan SF, Earley, R.L., Dugatkin, L.A. . Observational learning and predator

inspection in guppies (Poecilia reticulata). . Ethology 2003.;109:: 823-33.

54. Croft DP, Albanese, B., Arrowsmith, B.J., Botham,M., Webster, M., Krause, J. . Sex-

biased movement in the guppy (Poecilia reticulata). . Oecologia2003.;137:: 62-8.

55. Grether GF, Kasahara, S., Kolluru, G.R., Cooper, E.L. . Sex-specific effects of

carotenoid intake on the inmunological response to allografts in guppies (Poecilia reticulata).

. Proceedings of the Royal Society of London B2003.;271:: 45-9.

56. Selvi M, Sarikaya, R., Erkoc, F. . Acute behavioral changes in the guppy (Poecilia

reticulata) exposed to temephos. G.U. . Journal of Science2004.;17: :15-9.

57. Henk J. M. , Ramos EU, M. JL, Hermens. Classifying environmental pollutants. 2:

separation of class 1 (baseline toxicity) and class 2 (‘polar narcosis’) type compounds based

on chemical descriptors. J. Chemom. 1996;10:149-62.

58. Seward JR, Hamblen EL, Schultz TW. Regression comparisons of Tetrahymena

pyriformis and Poecilia reticulata toxicity. Chemosphere 2002;47 93-101.

59. Katritzky AR, Tatham DB. Theoretical Descriptors for the Correlation of Aquatic

Toxicity of Environmental Pollutants by Quantitative Structure-Toxicity Relationships. J

Chem Inf Comput Sci 2001;41 1162-76.

60. Roy K, Ghosh G. QSTR with Extended Topochemical Atom Indices. 2. Fish Toxicity

of Substituted Benzenes. J Chem Inf Comput Sci 2004;44:559-67.

61. Marrero-Ponce Y, Huesca-Guillen A, Ibarra-Velarde F. Quadratic indices of the

¨molecular pseudograph´s atom adjacency matrix¨ and their stochastic forms: a novel

approach for virtual screening and in silico discovery of new lead paramphistomicide drugs-

like compounds. J Mol Struct (Theochem)2005; 717:67-79.

62. Noriega T. Álgebra. Havana, Cuba: Ed. Revolucionaria; 1990.



63. Maltsev AI. Fundamentos del Álgebra Lineal. Moscow: Mir; 1976.

64. Garrido L, G. Introduccion a la Matemáticas Discretas. Havana, Cuba: Ed.,

Revolucionaria; 1990.

65. Ross KA, Wright CRB. Matemáticas discretas. Mexico D.F.: Prentice Hall

Hispanoamericana; 1990.

66. Varela M, V., Suárez L, Castro M, Baldoquín G. Algebra Lineal2002.

67. Browder A. Mathematical Analysis. An Introduction New York: Springer-Verlag;

1996.

68. Axler S. Linear Algebra Done Right. New York: Springer-Verlag; 1996.

69. Randic M. J Math Chem1991;7:155.

70. van de Waterbeemd H. Chemometric Methods in Molecular Design (Methods and

Principles in Medicinal Chemistry). van de Waterbeemd H, editor. New York: John Wiley &

Sons; 1995.

71. Alzina RB. Introduccion conceptual al análisis multivariable. Un enfoque informatico

con los paquetes SPSS-X, BMDP, LISREL Y SPAD. Barcelona: PPU, SA; 1989.

72. Norusis MJ. Advanced Statistics Guide. SPSS-X. New York: McGraw-Hill; 1985.

73. Belsey DA, Kuh E, Welsch RE. Regression Diagnostics. New York: Wiley; 1980.

74. STATISTICA version. 6.0 Statsoft I. Tulsa.

75. Basak SC, Balaban AT, Grunwald GD, Gute BD. J Chem Inf Comput Sci

2000;40:891.

76. Patel H, Cronin MTD. J Chem Inf Comput Sci2001;41:1228.

77. Cronin MT, Schultz TW. Pitfalls in QSAR. J Mol Struct (Theochem) 2003;622:39-

51.

78. Egan WJ, Morgan SL. Outlier detection in multivariate analytical chemical data. Anal

Chem1998;70:2372-9.

79. Wold S, Erikson L. Statistical Validation of QSAR Results. Validation Tools. In: van

de Waterbeemd H, editor. Chemometric Methods in Molecular Design. Weinheim: VCH

Publishers; 1995. p. 309-18.

80. Wold S. Technometrics1978;20:397.

81. Stone M. J Roy Stat Soc1974;36:111.

82. Shao J. J Amer Stat Assoc1993;88:486.



83. Rose K, Hall LH, Kier LB. Modeling blood-brain barrier partitioning using the

electrotopological state. J Chem Inf Comput Sci2002 May-Jun;42(3):651-66.

84. Girones X, Gallegos A, Carbo-Dorca R. Modeling antimalarial activity: application

of Kinetic Energy Density Quantum Similarity Measures as descriptors in QSAR. J Chem Inf

Comput Sci2000 Nov-Dec;40(6):1400-7.

85. Fan Y, Shi LM, Kohn KW, Pommier Y, Weinstein JN. Quantitative structure-

antitumor activity relationships of camptothecin analogues: cluster analysis and genetic

algorithm-based studies. J Med Chem2001 Sep 27;44(20):3254-63.

86. Suzuki T, Ide K, Ishida M, Shapiro S. Classification of environmental estrogens by

physicochemical properties using principal component analysis and hierarchical cluster

analysis. J Chem Inf Comput Sci2001 May-Jun;41(3):718-26.

87. Recanatini M, Cavalli A, Belluti F, Piazzi L, Rampa A, Bisi A, et al. SAR of 9-

amino-1,2,3,4-tetrahydroacridine-based acetylcholinesterase inhibitors: synthesis, enzyme

inhibitory activity, QSAR, and structure-based CoMFA of tacrine analogues. J Med

Chem2000 May 18;43(10):2007-18.

88. Morón JA, Campillo M, Perez V, Unzeta M, Pardo L. Molecular determinants of

MAO selectivity in a series of indolylmethylamine derivatives: biological activities, 3D-

QSAR/CoMFA analysis, and computational simulation of ligand recognition. J Med

Chem2000 May 4;43(9):1684-91.

89. Golbraikh A, Tropsha A. J Comp Aided Mol Des2002;16:357.

90. Golbraikh A, Tropsha A. Beware of q2! J Mol Graph Model2002 Jan;20(4):269-76.

91. Norinder UJ. Chemometrics1996;10:95.

92. Kubinyi H, Folkers G, Martin YC. Persp Drug Disc Des1998;12.

93. Eriksson L, Jaworska J, Worth AP, Cronin MT, McDowell RM, Gramatica P.

Methods for reliability and uncertainty assessment and for applicability evaluations of

classification- and regression-based QSARs. Environ Health Perspect2003

Aug;111(10):1361-75.

94. Papa E, Villa F, Gramatica P. Statistically validated QSARs, based on theoretical

descriptors, for modeling aquatic toxicity of organic chemicals in Pimephales promelas

(fathead minnow). J Chem Inf Model2005 Sep-Oct;45(5):1256-66.



95. Atkinson AC. Plots, Transformations, and Regression. Oxford (UK): Clarendon

Press; 1985.

96. Gramatica P. Principles of QSAR models validation: internal and external. QSAR

Comb Sci2007;26(5):694-701.

97. Sijm DTHM, Schipper MA, Opperhuizen A. Toxicokinetics of halogenated benzenes

in fish: Lethal body burden as a toxicological end point. Environ Toxicol

Chem1993;12,:1117-27.

98. Ramos EU, Vaes, W.H.J., Verhaar, H.J.M. and Hermens, J.L.M. . Quantitative

structure-activity relationships for the aquatic toxicity of polar and

nonpolar narcotic pollutants. J Chem Inf Comput Sci 1998;38, :845-52.

99. Pesticide Area Network North America. 2005; Available from:

http://www.pesticideinfo.org/Index.html.

100. Di Marzio W, Galassi S, Todeschini R, Consolaro F. Traditional versus WHIM

molecular descriptors in QSAR approaches applied to fish toxicity studies. .

Chemosphere2001;44, :401-6.

101. Marrero-Ponce Y, Romero V. TOMOCOMD software. TOMOCOMD (TOpological

MOlecular COMputer Design) for Windows, version 1.0 is a preliminary experimental

version; in future a professional version will be obtained upon request to Y. Marrero:

[email protected]; [email protected]. Central University of Las Villas.2002.

102. Draper NR, Smith H. Applied Regression Analysis. La Habana.: Editora

Revolucionaria; 1980.

103. Gonzalez MP, Diaz HG, Cabrera MA, Ruiz RM. A novel approach to predict a

toxicological property of aromatic compounds in the Tetrahymena pyriformis. Bioorg Med

Chem2004 Feb 15;12(4):735-44.

Anexo 1. Estructura de los compuestos de la serie de entrenamiento.

OHmethanol

HO

Ethanol

HO

2-propanol

HO1-Butanol

HO

Isobutanol

OH

t-Butanol

HO

3-Pentanol

HO1-Octanol

HO

1-Nonanol

HO

1-Decanol OH

1-Undecanol

OHOH

2-Methyl-2,4-pentanediol

HO

Cyclohexanol OHCl

ClCl

2.,2,2-Trichloroethanol

OAcetone

O

3-Pentanone O

5-Nonanone

O

6-Methyl-5-hepten-2-one O

Acetophenone

O

3,3-Dimethyl-2-butanone

OBenzophenone

O

Cyclohexanone

O

Dipentylether

O

OHO

2-Hydroxy-4-methoxyacetophenone

ClCl

ClCl

Tetrachloromethane

Cl Cl

Cl

1,2,4-Trichlorobenzene Cl

Cl3,4-Dichlorotoluene

N+

O

-O

Nitrobenzene

N+O

O-

2-Nitrotoluene

N+

O

-O

4-Nitrotoluene

N+

O

-O

2,3-Dimethylnitrobenzene

HO

Phenol

HO

2-Methylphenol

HO

4-Methylphenol

OH

2,4-Dimethylphenol OH

3,4-Dimethylphenol HO

2,3,6-Trimethylphenol

OH

4-Ethylphenol

HO

4-t-Butylphenol

OH

2-t-Butyl-4-methylphenol

HO

4-n-Pentylphenol

HO

4-t-Pentylphenol

OH

2-Allylphenol

OH

2-Phenylphenol

ClHO

4-Chlorophenol

Cl

OH4-Chloro-3-methylphenol

Cl OH

4-Chloro-3,5-dimethylphenol

O OH

4-Methoxyphenol

O

OH

4-Phenoxyphenol

N

Quinoline

H2N

Aniline

H2N

2-Methylaniline

H2N

4-Methylaniline

N

N,N-dimethylaniline NH2

2-Ethylaniline

NH2

4-Ethylaniline

NH2

4-Butylaniline NH2

2,6-Diisopropylaniline

H2N

Cl

2-Chloroaniline

H2N Cl

Cl

2,5-Dichloroaniline

NH2O

3-Benzyloxyaniline

NH2

O4-Hexyloxyaniline

NH2

N+O

O-

2-Nitroaniline

H2N

N+O

O-

3-Nitroaniline

H2N Cl

4-Chloroaniline

NH2

Cl Cl

2,4-Dichloroaniline

H2N Cl

ClCl

2,3,4-Trichloroaniline

H2N Br

4-Bromoaniline

alfa,alfa,alfa,4Tetrafluoro-3-methylaniline

NH2

F

F

F

F

NH2

F

FF

F

Alfa,alfa,alfa,4-Tetrafluoro-2-methylaniline

NF

F

F F

F

Pentafluoroaniline

NH2

N+

O

O-O

4-Ethoxy-2-nitroaniline

Cl

Cl

N+

O

-O

3,5-Dichloronitrobenzene

Cl

N+

O

-O

2-chloronitrobenzene

ClN+

O

-O

4-Chloronitrobenzene

Cl

Cl

N+

O

-O


Cl

Cl

N+

O

-O


N+O

-O

Cl

2-Chloro-6-nitrotoluene

N+

O

-ON+

O

O-

2,4-Dinitrotoluene

OButyraldehyde

OValeraldehyde

OHexylaldehyde

O

Heptylaldehyde

O

Isobutyraldehyde

O

2-Methylbutyraldehyde Cl

Cl

Cl

trichloroethene

HOO

OOH

triethyleneglycol HO OH1,3-dihydroxybenzene

H2N

1,2-dimethylpropylamine

NH2

1-adamantaneamine

H2N

1-methylheptylamine

NH2

2,2-dimethylpropylamine

NH2

ClCl

Cl

Cl2,3,4,5-tetrachloroaniline

ClCl

Cl

Cl OH2,3,4,5-tetrachlorophenol

Cl Cl

ClCl

HO

2,3,5,6-tetrachlorophenol

Cl

Cl

Cl

HO2,3,5-trichlorophenol

H2N

Cl Cl

ClCl

2,3,5,6-tetrachloroaniline

H2N

Cl Cl

Cl

2,3,6-trichloroaniline

Cl

Cl Cl

OH

2,4,5-trichlorophenol

Br

Br

Br

OH

2,4,6-tribromophenol Cl

Cl

Cl

OH


Cl Cl

OH

2,4-dichlorophenol

Cl

Cl

HO2,5-dichlorophenol

HO

2,6-dimethylphenol

NH2HO

2-aminoethanol Cl

OH

2-chloro-4-methylphenol Cl

1-chlorobutane Cl

Cl

1,1-dichloroethane

ClCl

Cl

1,1,1-trichloroethane ClCl

ClCl

1,1,2,2-tetrachloroethane

ClCl

1,2-dichloroethane

HOOH

1,2-ethanediol Cl

Cl

Cl1,2,3-trichlorobenzene

Cl

Cl

Cl1,2,3-trichloropropane

Cl

ClCl

Cl

1,2,3,4-tetrachlorobenzene

Cl

Cl Cl

Cl

1,2,4,5-tetrachlorobenzene

Cl Cl

1,3-dichlorobenzene

ClCl

1,4-dichlorobenzene

ClCl

1,3-dichloropropane

OHO

2-ethoxyethanol O

HO

2-methoxyethanol Cl Cl2,4-dichlorotoluene

Cl

Cl Cl2,4,5-trichlorotoluene

Cl

4-chlorotoluene

002

benzene

OH

HO

butyldigol

ClCl

dichloromethane o-xylene

p-xylene

Cl Cl

Cl

ClClpentachlorobenzene

ClCl

Cl

Cl Cl

pentachloroethane

HO

Cl

2-chlorophenol

H2NO

2-methoxyethylamine

H2N

3,3-dimethylbutylamine

OH

OH

ClCl

Cl

Cl3,4,5,6-tetrachloro-2-hydroxyphenol

HO O

O Cl

ClCl

3,4,5-trichloro-2,6-dimethoxyphenol

HO

O Cl

ClCl

3,4,5-trichloro-2-methoxyphenol

HO

Cl

Cl

Cl


OH

Cl

Cl

3,5-dichlorophenol

HO

N+O

O-

3-nitrophenol

HO NHO

4-(n-methoxymethyl)aminophenol

OH

N+

O

O-

H2N

4-amino-2-nitrophenol

H2N4-decylaniline

PO OSO Br

Cl

ClBromophos

OH

4-n-butylphenol

NH2N+

O

-O

4-nitroaniline

N+O

-OOH

4-nitrophenol HO

4-nonylphenol NH2

4-octylaniline

NN

OH

4-phenylazophenol

H2Namylamine

H2N

benzylamine H2N

butylamine

H2N

decylamine H2N

dodecylamine

NH2

ethylamine H2N

hexylamine

H2Noctylamine

H2N

propylamine

H2N

t-octylamine H2N

tridecylamine

OOHO

2-(2-ethoxyethoxy)ethanol

OO

2,6-dimethoxytoluene

O

OH

2-phenoxyethanol

OHO

3-furanmethanol

O

dibutyl ether

Odiisopropyl ether

O

diphenyl ether O

furan

Cl

Cl

Cl

Cl

Cl

Cl

hexachloroethane

O

t-butylmethyl ether

O

tetrahydrofuran O

OHO

2-(2-butoxyethoxy)ethanol

O

O1,2,7,8-diepoxyoctane

O

1,2-epoxybutane

O

1,2-epoxydecane O

1,2-epoxyhexane

Cl

1-chloro-2-butene

Cl

Cl

2,3-dichloropropene

O

2-ethylbutanal

N

N

O

OP

O

O

S

Etrinfos

OHN+OO-

N+OO-

2-s-butyl-4,6-dinitrophenol

Cl3-chloro-1-butene

O

3-cyclohexene-1-carboxaldehyde

ClCl

Cl OPO

OS

Ronnel

Cl

allyl chloride

O

benzaldehyde

Cl

benzyl chloride

C OH

Cl

Cl

Proclonol

O

decanal

Oethanal

OHO

glycidol

N

O

O

CH2

S PS

OO

Phosmet

SH

OO

PO

S

O

Phenthoate

OP

N+O

O-

O

O

SCH3

CH3Methylparathion

OH

ClCl

Cl

Cl Cl

pentachlorophenol

O

Cl

CN

POO

S

Methylisocyanothion

S

NN

O

OH3C

S PO

OS

CH3CH3

Methidathion

Opropylene oxide

O

styrene oxide OH

OH4-hexylresorcinol

OH

2-Methyl-2-propanol

O

Methyl tert-butyl ether I

Cl

Cl

OP

OS

O

Iodofenphos Br

Br

1,2-Dibromobenzene

Ethylbenzene

Isopropylbenzene

NAcetonitrile

NS

S SN

S

Disulfiram

NO2

P

Cl

OSO

Dicapthon

O

CN

POS

OCH3

CH3

Cyanophos

Butylbenzene

C

CH2

CHCH2

H2C

CH2

H3C

CH2H3C

C

CH2

CH3

Thiomedon

OO

BrBr

O

N

decamethrin

CH3

O

OCH3H3CO

H3CO

2,3,4-trimethoxyacetonone

Cl

ClO

2,4-dichloroacetophenone

Cl Cl

alpha, alpha,-Dichloro-m-xylene

N

O

NN

SPS

O O

Azinphos-methyl-2D-skeletal

Anexo 2. Estructura de los compuestos de la serie de predicción.

HO

1-Hexanol

HO

1-Dodecanol

OOH

2-Butoxyethanol

O

2-Butanone

O

2-Octanone

O

2-Decanone

O

3-Methyl-2-butanone

O

4-Methyl-2-pentanone

Cl

Chlorobenzene

Cl

Cl

1,2-Dichlorobenzene

Cl

Cl

Cl

1,3,5-Trichlorobenzene

Toluene

N+O

-O

Cl

4-Chloro-2-nitrotoluene

N+O

O-

3-Nitrotoluene

N+

O

-O

3,4-Dimethylnitrobenzene

OH3-Methylphenol

OH

4-Propylphenol

OH

1-naphthol

O OH3-Methoxyphenol

NH2

3-Methylaniline

NH23-Ethylaniline

NH2Cl

3-Chloroaniline

H2N

Cl

Cl

3,5-Dichloroaniline

NH2

Cl

Cl

3,4-Dichloroaniline

NH2Cl

Cl Cl

2,4,5-Trichloroaniline

H2N N+

O

O-Cl

2-Chloro-4-nitroaniline

N+

O

-ON+

O

O-

Cl

1-Chloro-2,4-dinitrobenzene

Cl

N+

O

-O

3-Chloronitrobenzene ClCl

N+

O

-O


N+

O

-ON+

O

O-

1,3-Dinitrobenzene O

Propionaldehyde O

Isovaleraldehyde

ClCl

Cl

1,1,2-trichloroethane

Cl

Cl

Cl

Cl

tetrachloroethene

HONH2

1-amino-2-propanol Cl

ClCl

Cl

HO2,3,4,6-tetrachlorophenol

Cl Cl

ClHO

2,3,6-trichlorophenol Cl

Cl

HO

2,6-dichlorophenol

ClCl

1,2-dichloropropane

Cl

Cl

Cl

Cl1,2,3,5-tetrachlorobenzene

OHO

2-isopropoxyethanol Cl

3-chlorotoluene

Cl

ClCl

chloroform

HOO

OH

diethyleneglycol

O

diethylether m-xylene

OHCl

3-chlorophenol

OH

O

Cl

Cl4,5-dichloro-2-methoxyphenol

NH2

heptylamine

H2N

nonylamine NH2

s-butylamine

NH2

undecylamine

O O

1,4-dimethoxybenzene

O

1,2-epoxydodecane O

1,2-epoxyoctane

OO

1,3-butadienediepoxide

OCl

2,2-dichlorodiethyl ether

Cl

Cl

Cl2,4,R-trichlorotoluene

Cl

OO

2-furaldehyde

O

cyclohexanecarboxaldehyde

Cl

ClCl

Cl

Cl

Cl

hexachlorobutadiene

O

NH2acrylamide

O

NH2F

fluoroacetamide

HO

2-Methyl-1-propanol

ClCl

Cl ClCl

Cl

Lindane

CH3

S

OP

O

O

S

H3CCH3

CH3

fenthion

H3C

NO2

OP

O

O

SCH3

CH3

Fenitrothion

Propylbenzene

O

N+

Cl

-O

O

PO

SO

Chlorthion

H2N

N+O

O-

O

4-Ethoxy-3-nitroaniline

O SN

O

Lethane

ANEXO 3 Compuestos de la base de datos de Ociosos y caducos de la UCLV, ordenados según el nivel de toxicidad predicha [log (LC50)] por los modelos y de acuerdo al valor experimental del benceno. Anexo 3.1. Compuestos de la base de datos de Ociosos y caducos de la UCLV, ordenados según el nivel de toxicidad predicha [log (LC50)] por el modelo no-estocástico y de acuerdo al valor experimental del benceno. Nombre Toxicidad

Predicha Mas tóxicos que el benceno

benzanilide 0.672 3-bromo-1-nitrobenzene 1.770 1-bromobutane 1.891 benzoyl chloride 1.900 benzoyl bromide 2.087 2,6-dinitrophenol 2.382 4-bromotoluene 2.410 4-methylnitrobenzene 2.419 buthyl ether 2.584 cyclohexyl amine 2.669 diethyl malonate 2.704 benzamide 2.758 aniline hydrochloride 2.782 o-toluidine 2.852 Benzene 2.910

Menos tóxicos que el benceno succinic acid, disodium salt 2.986 diethyl sulfide 3.119 1-pentanol 3.165 diethanolaminie 3.350 2-pentanol 3.378 diethyl carbonate 3.385 o-cresol 3.463 aminoacetic acid 3.655 methanesulfonyl chloride 3.823 ethylamine 3.855 ethyl bromide 3.934 ethyl formate 3.946 ethylene chlorhydrin 4.103

Anexo 3.2. Compuestos de la base de datos de Ociosos y caducos de la UCLV, ordenados según el nivel de toxicidad predicha [log (LC50)] por el modelo estocástico y de acuerdo al valor experimental del benceno. Nombre Toxicidad

Predicha Mas tóxicos que el benceno

benzidine 0.415 benzanilide 0.428 1-bromonaphthalene 0.739 1,10-phenanthroline 0.843 benzoyl bromide 1.320 benzoyl chloride 1.559 4-bromotoluene 1.789 1-bromobutane 1.793 3-bromo-1-nitrobenzene 1.849 2,6-dinitrophenol 1.960 benzamide 2.180 diethyl sulfide 2.276 ethyl bromide 2.335 4-methylnitrobenzene 2.352 o-toluidine 2.406 buthyl ether 2.563 o-cresol 2.607 aniline hydrochloride 2.627 cyclohexyl amine 2.757 Benzene 2.910

Menos tóxicos que el benceno 1-pentanol 3.105 2-chloropropane 3.218 ethylene chlorhydrin 3.333 succinic acid, disodium salt 3.498 2-pentanol 3.518 diethanolaminie 3.726 ethylamine 4.163 ethanol amine 4.269 ethyl formate 4.384 trimethylamine hydrochloride 4.489 aminoacetic aci 4.625

Predicción de toxicidad acuática de compuestos orgánicos ...

Documents

Transcript of Predicción de toxicidad acuática de compuestos orgánicos ...