Estimación del LC50 para sustancias químicas de uso ...

20
1 Estimación del LC50 para sustancias químicas de uso industrial por QSAR Juan Sebastián Hernández Gómez Asesores: María Elsa Correal Núñez y Felipe Muñoz Giraldo Tesis de pregrado desarrollada en la Universidad de los Andes en cumplimiento de los requerimientos para obtener un título en Ingeniería química e Ingeniería Industrial Resumen El LC50 de una sustancia determina la concentración letal de ésta para un organismo y por tanto establece un parámetro de control para la exposición a diferentes compuestos en la industria. En los últimos cincuenta años, el desarrollo de herramientas computacionales y la investigación en el campo de los descriptores (parámetros que describen información de la estructura de una molécula) han llevado a la implementación cada vez mayor de los modelos de relación cuantitativa estructura actividad (QSAR por sus siglas en inglés) en la estimación de propiedades de compuestos entre ellas el LC50. En este trabajo, se presenta el planteamiento detallado de un modelo QSAR de regresión lineal para la estimación del LC50 oral para peces de la especie Pimephales promelas partiendo de una base inicial de 1124 descriptores para un grupo de 301 compuestos orgánicos entre los que se encuentran solventes comúnmente usados en la industria farmacéutica. Luego de analizar los descriptores establecidos fue posible obtener un modelo de regresión conformado por tres variables, el coeficiente de partición octanol-agua de Ghose Crippen, el área de superficie polar topológica total y el índice 3D de Harary, registrando p-values menores al nivel de significancia manejado (=0.01) en los tres casos. Adicionalmente se validaron los resultados obtenidos por el modelo llevando a cabo un análisis de observaciones influyentes, multicolinealidad y heterocedasticidad obteniendo modelos con un R 2 superior a 0.6 en todos los casos. Palabras claves: Absorción, Distribución, Metabolismo, QSAR, LC50, Descriptor, Significancia 1. Introducción En la industria química (farmacéutica, petrolera, etc.) existen regulaciones sobre la concentración de los diferentes compuestos tanto en el aire (en forma de vapores) como en el agua, sin embargo, la existencia de gran cantidad de sistemas ha llevado tanto a inconsistencias en la protección de operarios y personas que pudieran entrar en contacto con este material, como a generar excesivos estándares de regulación [1]. Ante estas dificultades, la ONU decidió establecer un Sistema Global Armonizado (GHS por sus siglas en inglés), que hizo posible reducir los estudios químicos requeridos, los riesgos mencionados previamente y además, facilitar el comercio de químicos entre distintos países. A pesar de la creación de este sistema, sigue existiendo una gran cantidad de compuestos para los que no se encuentra información experimental disponible de diversos parámetros. [2] En la actualidad en Colombia, el control que existe sobre los productos químicos y en especial sobre la concentración letal de diferentes compuestos, se encuentra poco desarrollada, ya que a pesar de que existe una mesa de trabajo creada por el Ministerio de Ambiente y Desarrollo Sostenible para implementar el GHS a nivel nacional, la falta de capacidad institucional para asumir el tema y la limitación de recursos financieros para su correcta implementación y verificación de cumplimiento no han permitido el oportuno desarrollo del proyecto [3]. Un estudio de toxicidad haciendo uso de ratas, incluye cerca de 800 animales y acarrea un costo de cerca de $6 millones de dólares para sólo una sustancia [4], lo que dificulta el desarrollo de estos y por tanto disminuye la disponibilidad de parámetros de control. Dados los problemas mencionados anteriormente, la GHS estableció que si no existe información experimental disponible para una propiedad de un compuesto de interés, se debe llevar a cabo el cálculo de la misma con ayuda de modelos como lo son el QSAR y QSPR [2]. El propósito de estos modelos es establecer una relación matemática entre una propiedad fisicoquímica de la molécula y unos descriptores relacionados con la estructura de la misma, de

Transcript of Estimación del LC50 para sustancias químicas de uso ...

Page 1: Estimación del LC50 para sustancias químicas de uso ...

1

Estimación del LC50 para sustancias químicas de

uso industrial por QSAR

Juan Sebastián Hernández Gómez

Asesores: María Elsa Correal Núñez y Felipe Muñoz Giraldo

Tesis de pregrado desarrollada en la Universidad de los Andes en cumplimiento de los requerimientos para

obtener un título en Ingeniería química e Ingeniería Industrial

Resumen

El LC50 de una sustancia determina la concentración letal de ésta para un organismo y por tanto establece un parámetro de

control para la exposición a diferentes compuestos en la industria. En los últimos cincuenta años, el desarrollo de herramientas

computacionales y la investigación en el campo de los descriptores (parámetros que describen información de la estructura de

una molécula) han llevado a la implementación cada vez mayor de los modelos de relación cuantitativa estructura actividad

(QSAR por sus siglas en inglés) en la estimación de propiedades de compuestos entre ellas el LC50. En este trabajo, se presenta

el planteamiento detallado de un modelo QSAR de regresión lineal para la estimación del LC50 oral para peces de la especie

Pimephales promelas partiendo de una base inicial de 1124 descriptores para un grupo de 301 compuestos orgánicos entre los

que se encuentran solventes comúnmente usados en la industria farmacéutica. Luego de analizar los descriptores establecidos fue

posible obtener un modelo de regresión conformado por tres variables, el coeficiente de partición octanol-agua de Ghose

Crippen, el área de superficie polar topológica total y el índice 3D de Harary, registrando p-values menores al nivel de

significancia manejado (𝛼=0.01) en los tres casos. Adicionalmente se validaron los resultados obtenidos por el modelo llevando

a cabo un análisis de observaciones influyentes, multicolinealidad y heterocedasticidad obteniendo modelos con un R2 superior a

0.6 en todos los casos.

Palabras claves: Absorción, Distribución, Metabolismo, QSAR, LC50, Descriptor, Significancia

1. Introducción

En la industria química (farmacéutica, petrolera, etc.)

existen regulaciones sobre la concentración de los

diferentes compuestos tanto en el aire (en forma de vapores)

como en el agua, sin embargo, la existencia de gran

cantidad de sistemas ha llevado tanto a inconsistencias en la

protección de operarios y personas que pudieran entrar en

contacto con este material, como a generar excesivos

estándares de regulación [1]. Ante estas dificultades, la

ONU decidió establecer un Sistema Global Armonizado

(GHS por sus siglas en inglés), que hizo posible reducir los

estudios químicos requeridos, los riesgos mencionados

previamente y además, facilitar el comercio de químicos

entre distintos países. A pesar de la creación de este

sistema, sigue existiendo una gran cantidad de compuestos

para los que no se encuentra información experimental

disponible de diversos parámetros. [2]

En la actualidad en Colombia, el control que existe sobre

los productos químicos y en especial sobre la concentración

letal de diferentes compuestos, se encuentra poco

desarrollada, ya que a pesar de que existe una mesa de

trabajo creada por el Ministerio de Ambiente y Desarrollo

Sostenible para implementar el GHS a nivel nacional, la

falta de capacidad institucional para asumir el tema y la

limitación de recursos financieros para su correcta

implementación y verificación de cumplimiento no han

permitido el oportuno desarrollo del proyecto [3]. Un

estudio de toxicidad haciendo uso de ratas, incluye cerca de

800 animales y acarrea un costo de cerca de $6 millones de

dólares para sólo una sustancia [4], lo que dificulta el

desarrollo de estos y por tanto disminuye la disponibilidad

de parámetros de control.

Dados los problemas mencionados anteriormente, la GHS

estableció que si no existe información experimental

disponible para una propiedad de un compuesto de interés,

se debe llevar a cabo el cálculo de la misma con ayuda de

modelos como lo son el QSAR y QSPR [2]. El propósito de

estos modelos es establecer una relación matemática entre

una propiedad fisicoquímica de la molécula y unos

descriptores relacionados con la estructura de la misma, de

Page 2: Estimación del LC50 para sustancias químicas de uso ...

2

manera que la propiedad se vea explicada como una función

de estos factores [5].

Los estudios en relaciones cuantitativas estructura-

propiedad (QSPR por sus siglas en inglés) se iniciaron en el

año 1868 cuando Crum-Brown y Fraser plantearon la

posible existencia de relaciones entre actividades

fisiológicas y propiedades químicas explicando cambios en

actividades biológicas a partir de pequeñas modificaciones

estructurales. [6]. Durante los siguientes años grandes

avances en el campo serían llevados a cabo por Richardson

(1869), Reynolds (1877), Richet (1893) y varios más

durante el siguiente siglo, sin embargo, el avance decisivo

sería realizado por Hammett en 1937 con su estudio de la

tasa relativa de reacción de sustituyentes benzoicos meta- y

para- que lo llevarían al desarrollo de la constante y

ecuaciones que llevan su nombre [7]. A partir de estas

ecuaciones, Hammet logró establecer una relación entre

constantes calculadas cuantitativamente y la constante de

reacción en compuestos orgánicos, estableciendo así una

base para el posterior estudio de estos métodos.

Luego de este avance, en 1964 se daría el desarrollo de dos

metodologías de manera independiente que sentarían las

bases del estudio de relaciones cuantitativas estructura-

actividad (QSAR por sus siglas en inglés) moderno. Con la

divulgación de su informe “𝜚-𝜎-𝜋 Analysis. A method for

the correlation of biological activity and chemical

structure”, Hansch y Fujita dieron origen a la aproximación

extratermodinámica que posteriormente sería conocida

como el análisis de Hansch, mientras que Free y Wilson

publicarían “A mathematical contribution to structure

activity studies” haciendo uso de las nuevas herramientas

computacionales disponibles en la época [8], llegando así a

la eq. 1.

log 1/𝐶 = ∑ 𝑎𝑖𝑗 + 𝜇 (𝑒𝑞. 1)

donde 𝑎𝑖𝑗 representa la contribución del sustituyente 𝑋𝑖 en

la posición j, mientras que 𝜇 corresponde al valor teórico de

la actividad biológica de un compuesto de referencia en la

serie. Este modelo permaneció sin cambios hasta la década

de los noventa cuando surgieron varias mejoras de la

combinación de los métodos previamente enunciados y la

formulación de modelos teóricos no lineales para la

distribución y transporte de medicamentos en un sistema

biológico, derivando así en el siguiente modelo [8]

log 1/𝐶 = 𝑎 log 𝑃 − 𝑏 log(𝛽𝑃 + 1) + 𝑐 (𝑒𝑞. 2)

donde C corresponde a una propiedad de estudio como la

toxicidad y P a una variables asociada a la misma. Tras

estos avances se estableció como principio del QSPR y

QSAR que estructuras similares presentan propiedades

análogas y variaciones en la estructura molecular conllevan

a cambios en propiedades macroscópicas [6]. Con el

desarrollo de estos modelos y los métodos computacionales

modernos, se ha logrado consolidar una base de datos de

descriptores (parámetros que corresponden a información

específica de la molécula estudiada) para una amplia gama

de sustancias. Los descriptores se han clasificado en

constitucionales, topológicos, geométricos y quimico-

cuánticos dependiendo de la dimensión de su representación

molecular [9]. La alta disponibilidad de descriptores por los

desarrollos tecnológicos del último siglo ha permitido llevar

a cabo modelos de redes neuronales artificiales como el

desarrollado por Devillers en 2001 [10] y análisis de

regresión múltiple en el caso de Garcia-Domonec y

Alarcon-Elbal en 2007 [11] para la estimación de la

toxicidad de sustancias en términos del LC50

(concentración letal que causa la muerte al 50% de animales

de prueba [12]).

En el presente artículo se pretende realizar un análisis de

regresión lineal múltiple para estimar el valor del LC50

para peces en términos del negativo del logaritmo de la

concentración en mol/L a partir de un grupo de descriptores

para una serie de compuestos orgánicos. Una vez obtenido

el modelo, se espera que éste permita medir la toxicidad de

otros compuestos orgánicos a partir de los valores de los

descriptores elegidos.

2. Metodología

El desarrollo del estudio se llevó a cabo en cuatro etapas

principales: construcción de la base de datos, selección de

variables de estudio, construcción del modelo de regresión

y validación del modelo QSAR. A continuación se muestra

una descripción del procedimiento realizado en cada uno de

estos pasos.

2.1 Construcción de la base de datos

Para obtener la información necesaria para realizar el

estudio se llevó a cabo una búsqueda en portales de

organizaciones como la OCHEM, la U.S. National Library

of Medicine y el Milano Chemometrics and QSAR

Research Group, siendo este último el sitio usado por tener

mayor información disponible tanto para la variable a

explicar (LC50) como para los descriptores existentes

actualmente.

La organización ofrece de manera abierta una base de datos

correspondiente a 908 moléculas orgánicas para predecir la

toxicidad acuática aguda en peces de la especie Pimephales

promelas en términos del LC50, definido como la

concentración que causa la muerte al 50% de los peces de

prueba en un análisis de 96 horas. [13]. Los datos fueron

recuperados por Todeschini, Cassotti, Ballabio y Consonni

de tres bases llamadas OASIS [14], ECOTOX [15] y EAT5

[16] para posteriormente ser procesados a un mismo índice

(a partir de un paso de EC50 a LC50 para EAT5),

eliminando rangos y límites (en el caso de la base

ECOTOX), corrigiendo inconsistencias entre el CAS-RN y

el nombre químico, convirtiendo los datos a molaridad y

transformándolos en unidades logarítmicas

(−Log10(mol/L)), eliminando duplicados y desechando los

datos que resultaran atípicos. [17]

Page 3: Estimación del LC50 para sustancias químicas de uso ...

3

A partir de la base mencionada anteriormente, se

seleccionaron 301 compuestos tomando su especificación

de introducción lineal molecular simplificada (SMILES por

sus siglas en inglés), el valor del LC50 en unidades molares

y el CAS-RN. Haciendo uso de este último fue posible

obtener los valores de distintos descriptores a partir de la

MOLE db- Molecular Descriptors Data Base para cada uno

de los compuestos seleccionados.

La MOLE db. Molecular Descriptors Data Base es una base

de datos gratuita en línea desarrollada por el Milano

Chemometrics and QSAR Research Group que contiene

1124 descriptores moleculares calculados a partir del

DRAGON software para 234773 compuestos. Los

descriptores incluidos en la base se clasifican en doce

grupos entre los que se encuentran propiedades

moleculares, índices de información, índices de

conectividad, descriptores constitucionales y otros [18].

Los 301 compuestos seleccionados se distribuyen, según las

categorías de toxicidad establecidas por la EPA [19] de

mayor a menor de la siguiente manera: 8 compuestos de la

categoría X (más tóxicos), 27 compuestos de la categoría A,

73 compuestos de la categoría B, 102 compuestos de la

categoría C y 91 compuestos de la categoría D.

Una vez construida la base conformada por 1124

descriptores y 301 compuestos orgánicos, se filtró cada una

de las variables en busca de datos faltantes (identificados

como n.a. en la MOLE db), eliminando un total de 15

variables por tener presencia de los mismos. Después de

llevar a cabo este procedimiento se dio por terminada la

labor de construcción de la base y se procedió a realizar la

selección de variables de estudio.

2.2 Selección de variables de estudio

A partir de la base de datos construida en la etapa anterior,

se llevó a cabo un proceso de selección de variables de

interés, ya que el hecho de manejar un número de éstas

superior a la cantidad de observaciones lleva a que el

método de mínimos cuadrados (usado por los modelos de

regresión) obtenga varios estimados de los coeficientes que

acompañarán a las variables, generando así una varianza

infinita en la estimación que haría inútiles los resultados

obtenidos [20]. Para establecer las variables a analizar entre

las 1109 disponibles fue necesario llevar a cabo una

revisión bibliográfica que permitiera plantear una relación

entre sustancias químicas y su acción xenobiótica. Esta

acción suele ser resumida bajo el acrónimo “ADME” que

describe los procesos de absorción, distribución,

metabolismo y excreción de sustancias que no son

producidas en el organismo como es el caso de los

compuestos de estudio [21]. Cada uno de los procesos

mencionados anteriormente está conectado con ciertas

propiedades de los compuestos que pueden llevar a facilitar

o dificultar el desarrollo de los mismos según su valor, de

manera que las variables relacionadas con estas deberían ser

incluidas en el estudio.

La absorción denota el procedimiento por el cual químicos

externos penetran las barreras de los tejidos e ingresan al

organismo, por lo que propiedades como el tamaño, la

masa, la solubilidad y la carga eléctrica de la molécula

fueron seleccionadas por su relación con el transporte

activo y pasivo a través de la membrana celular [22]. Otro

factor importante en la absorción de xenobióticos es la

permeabilidad de la membrana a los mismos, en especial

cuando la ingestión de sustancias químicas se da vía oral

como sucede en el estudio realizado (LC50 oral en peces).

Por esto se decidió incluir propiedades relacionadas con

ésta como lo son el coeficiente de partición octanol/agua y

el área de superficie polar (PSA por sus siglas en inglés)

[23].

El siguiente paso en la digestión de sustancias químicas es

la distribución de éstas en el organismo. Esta etapa está

ligada al transporte de compuestos a través del torrente

sanguíneo, razón por la cual se consideró que el factor

hidrofílico debía ser incluido entre las variables de estudio.

Teniendo en cuenta lo establecido anteriormente, los

tóxicos hidrofílicos suelen alcanzar altas concentraciones al

interior de los túbulos proximales, convirtiendo así a los

riñones en órgano blanco, a diferencia de los químicos

lipofílicos que suelen acumularse en tejidos presentando

bajas concentraciones en la sangre [24]. Algunos modelos

recientes proponen la flexibilidad, el tamaño y la capacidad

de formar puentes de hidrógeno de la molécula como

variables que determinan la lipofilicidad e hidrofilicidad de

la sustancia, por lo cual estas variables también fueron

seleccionadas [21].

El tercer paso de la disposición del compuesto químico en

el organismo es su metabolismo. Esta etapa se centra en las

interacciones tóxico-enzima, ya que las relaciones entre

estos dos componentes resultan esenciales en la

degradación de la sustancia química ingerida. Al momento

de unirse el sustrato al sitio activo de la enzima, la

estructura tridimensional, tanto de la enzima como de la

molécula tóxica, determina la formación de un complejo

que permitirá el desarrollo de esta actividad celular [25].

Por esto se decidió incluir todos los descriptores

relacionados con la estructura tridimensional entre las

variables de estudio para posteriormente seleccionar el que

presentara una mayor relación con la toxicidad de la

sustancia.

Con base en los argumentos anteriores y teniendo en cuenta

que durante la excreción las propiedades que participan

resultan similares a las mencionadas previamente, fue

posible seleccionar los descriptores que se muestran en la

nomenclatura como variables de interés para el estudio,

agregando la presencia de ciertos radicales y átomos como

variables adicionales.

2.3 Análisis previo de datos

Una vez seleccionadas las variables de interés para

desarrollar el estudio, fue necesario analizar los datos para

tener una idea inicial del comportamiento de cada una de

Page 4: Estimación del LC50 para sustancias químicas de uso ...

4

las variables. Para esto, se ingresó la información de las

variables al software de análisis de datos y estadística

Stata® y se realizó un estudio descriptivo de las mismas.

2.4 Construcción del modelo de regresión

La construcción del modelo de regresión se llevó a cabo en

tres pasos básicos. Inicialmente, se plantearon modelos de

regresión simple con las principales variables de interés de

cada uno de los procesos que conforma el ADME con el fin

de tener una idea inicial sobre la relación de estos

descriptores con la variable de respuesta. Una vez realizado

este paso se procedió a establecer modelos de regresión

múltiple que incluyeran distintas combinaciones de los

descriptores analizados previamente al interior de cada uno

de los procesos mencionados. Finalmente, se construyeron

varios modelos a partir de los resultados obtenidos, para así

seleccionar la combinación de variables que permitiera una

mejor predicción de la toxicidad de las sustancias

estudiadas.

2.5 Validación del modelo QSAR

Después de seleccionar las variables adecuadas para el

modelo de regresión se procedió a validar los resultados

obtenidos por el mismo mediante un análisis de

observaciones influyentes, un análisis de multicolinealidad

y una serie de pruebas de heterocedasticidad.

2.5.1 Análisis de datos influyentes

Una vez establecido el modelo de regresión lineal múltiple

a partir de los descriptores de los procesos ADME, se

procedió realizar un análisis de los datos en busca de

observaciones que pudieran estar afectando los resultados

obtenidos por el modelo.

El método elegido para detectar estas observaciones fue el

uso de DFbetas. Estos valores miden la diferencia entre el

beta obtenido para una variable con y sin la observación

analizada. Un valor absoluto del DFbeta superior a 2/√𝑁

determina que la observación resulta influyente, es decir

que su eliminación puede generar cambios sustanciales en

el modelo [26]. Luego de estimar los valores, se procedió a

compararlos con el valor crítico para decidir que

observaciones debían ser eliminadas, omitiendo así un total

de 38 observaciones.

2.5.2 Modelo de regresión sin datos influyentes

Luego de omitir las observaciones influyentes, se repitió el

último paso del proceso de construcción del modelo, es

decir, se establecieron diferentes modelos de regresión

lineal múltiple a partir del modelo elegido previamente. De

esta manera se establecieron seis nuevos modelos de

regresión de donde se escogió el modelo final, al cual se le

realizó un análisis de heterocedasticidad y multicolinealidad

para verificar la confiabilidad de los datos obtenidos.

2.5.3 Análisis de multicolinealidad

Una vez establecido el modelo se procedió a verificar que

éste no presentará una alta relación entre sus variables es

decir, que las variables independientes elegidas para

explicar el LC50 no se pudieran obtener como

combinaciones lineales entre ellas, fenómeno conocido

como multicolinealidad.

La ocurrencia de este problema se analizó con ayuda del

factor de inflación de la varianza (VIF por sus siglas en

inglés), el cual mide que tanto se “infla” la varianza de un

estimador por la presencia de multicolinealidad [27]. Este

indicador está definido de la siguiente manera.

𝑉𝐼𝐹 =1

(1 − 𝑟𝑖2)

donde 𝑟𝑖2 corresponde al 𝑅2 obtenido para una regresión de

la variable contra las demás variables del modelo.

Siguiendo esta fórmula, se verificó que el modelo

presentara valores bajos para este indicador, de lo contrario

la relación entre las variables resulta alta.

2.5.4 Análisis y corrección de heterocedasticidad

Después de establecer el modelo final se llevó a cabo una

prueba de Breusch-Pagan/ Cook-Weisberg para determinar

si había una distribución constante de residuales en las

observaciones, es decir si la regresión establecida cumplía

el supuesto de homocedasticidad. Dado que el modelo

seleccionado registró heterocedasticidad, fue necesario

repetir la prueba realizada previamente con las variables

incluidas (AlogP, TPSA(tot) y H3D) y sus respectivos

efectos cuadrados.

Uno de los principales supuestos en la solución del

problema de heterocedasticidad es que la varianza del error

resulta proporcional a uno de los términos que están

explicando el problema; comportamiento que se podría

expresar de la siguiente manera [28].

𝐸(𝑢𝑖2) = 𝜎2𝑋𝑖

2

Luego de obtener los resultados de estas pruebas y teniendo

en cuenta la solución recomendada en la literatura se

procedió a realizar una transformación de las variables con

base en los efectos cuadrados del descriptor AlogP,

obteniendo el modelo que se muestra a continuación.

𝑦

𝐴𝑙𝑜𝑔𝑃= 𝛽0

1

𝐴𝑙𝑜𝑔𝑃+ 𝛽1 + 𝛽2

𝑇𝑃𝑆𝐴(𝑡𝑜𝑡)

𝐴𝑙𝑜𝑔𝑃+ 𝛽3

𝐻3𝐷

𝐴𝑙𝑜𝑔𝑃

A partir de la regresión obtenida para las nuevas variables,

se realizó nuevamente el test de Breusch-Pagan/ Cook-

Weisberg para verificar que la transformación hubiera

corregido los problemas de heterocedasticidad y así obtener

el modelo final.

Page 5: Estimación del LC50 para sustancias químicas de uso ...

5

3. Resultados

En esta sección se muestran y analizan estadísticamente los

resultados obtenidos en los diferentes pasos del estudio,

haciendo énfasis en el comportamiento de los datos y la

significancia registrada por las diferentes variables a lo

largo del desarrollo del modelo.

3.1 Análisis descriptivo de las variables

Luego de ingresar los valores del LC50 y los descriptores

seleccionados a Stata®, se inició el estudio con un análisis

descriptivo de las variables. En éste se evidenció una gran

diferencia entre el valor máximo y mínimo registrados y la

media obtenida para algunas variables entre las que se

encontraba la variable a explicar, como se observa en la

tabla 1.

Tabla. 1 Análisis inicial de variables de estudio

Adicionalmente, la tabla anterior permite establecer una

aproximación inicial entre los descriptores seleccionados

previamente y la variable de interés por medio del

coeficiente de correlación. La existencia de valores

cercanos a 0.5 en magnitud para este indicador, permitió

establecer que podría existir una relación entre la toxicidad

de la sustancia y las variables a estudiar.

3.2 Construcción del modelo de regresión

En esta sección se muestran los resultados obtenidos en

cada uno de los pasos del proceso de construcción del

modelo de regresión, entre los que se encuentran modelos

de regresión lineal simple, modelos de regresión lineal

múltiple por proceso, modelo de regresión lineal final,

análisis de datos influyentes y validación de los resultados

obtenidos.

3.2.1 Modelos de regresión lineal simple

Teniendo en cuenta los datos registrados en la tabla de

análisis inicial, se procedió a realizar una serie de modelos

de regresión lineal simple. Los resultados registrados a

continuación permiten tener una primera idea de la relación

de las principales variables elegidas para cada uno de los

procesos ADME con la toxicidad de la sustancia en

términos del LC50.

3.2.1.1 Modelos de regresión lineal simple absorción

Los modelos de regresión lineal simple construidos

permitieron apreciar que las principales variables de interés

relacionadas con el proceso de absorción resultan

significativas de manera individual aun manejando niveles

de significancia extremadamente bajos. Esto quiere decir

que los p-values obtenidos para la mayoría de estas

resultan aproximadamente iguales a cero. Aunque en este

caso el área de superficie polar no resulta significativa, esta

variable continuará incluyéndose en los modelos de

regresión múltiple por su relación con la lipofilicidad

descrita en la literatura.

Tabla 2. Resultados regresiones simples descriptores absorción

Los valores registrados para el R2 por las variables

relacionadas con el coeficiente de partición (mlogp y

mlogp2) y por el peso molecular en la tabla 2 muestran que

estos descriptores explican de buena manera la toxicidad de

la molécula, por lo que se esperaría que alguna variable

relacionada con estas propiedades esté incluida en el

modelo final.

3.2.1.2 Modelos de regresión lineal simple distribución

La tabla 3 muestra los resultados obtenidos para los

distintos modelos de regresión lineal simple establecidos a

partir de los principales descriptores relacionados con el

proceso de distribución de sustancias xenobióticas en el

organismo.

Tabla 3. Resultados regresiones simples descriptores distribución

Al igual que en el caso anterior, la mayoría de las variables

presentan un p-value aproximadamente igual a cero, por lo

que resultan significativas individualmente. Sin embargo, el

número de átomos aceptores de puentes de hidrógeno

(nhacc) presenta un p-value alto, por lo que inicialmente

resulta una variable no significativa en la explicación de la

toxicidad de la sustancia.

ADME Process Variable Mean Std. Dev. Min Max Correlation

mw 158.27 75.46 53.07 551.19 0.4713

sp 13.74 6.23 4.63 69.08 0.3602

mp 0.66 0.10 0.52 1.16 0.3968

phi 3.79 3.12 0.555 32.443 0.1956

amr 42.42 18.21 14.554 179.361 0.4565

isiz 97.01 67.64 15.51 820.483 0.2267

tpsano 30.01 25.25 0 165.37 -0.0253

tpsatot 32.54 27.67 0 173.75 0.0723

mlogp 1.90 1.43 -2.03 6.515 0.5484

mlogp2 5.65 6.51 0.001 42.449 0.4691

alogp 2.00 1.65 -2.329 14.396 0.5615

alogp2 6.71 13.69 0 207.253 0.2828

x0sol 8.09 3.44 3.414 28.542 0.4538

x1sol 5.12 2.28 1.914 19.121 0.4563

x2sol 4.39 2.46 1 17.5 0.4441

x3sol 3.19 2.57 0.5 24.375 0.4063

x4sol 2.27 2.29 0 22.563 0.3548

x5sol 1.59 1.97 0 19.813 0.3541

hy -0.21 0.77 -0.979 4.107 -0.2797

w3d 1418.52 5935.63 32.408 100879 0.0966

j3d 4.03 1.71 1.645 8.735 -0.1042

h3d 80.67 74.48 6.342 928.105 0.1914

pji3 0.71 0.16 0.239 0.994 0.1689

Absorption

Distribution

Metabolism

Variable mw mp mlogp mlogp2 isiz amr tpsatot

0.222 0.157 0.301 0.22 0.051 0.208 0.005𝑅2

Variable hy x0sol x5sol nhacc

0.078 0.206 0.125 0.00𝑅2

Page 6: Estimación del LC50 para sustancias químicas de uso ...

6

El análisis de los valores registrados para el R2 por los

descriptores elegidos, permite apreciar que las variables

asociadas a índices de conectividad de solvatación (x0sol y

x5sol) explican de buena manera la variable de respuesta

por lo que estos descriptores podrían llegar a estar presentes

en el modelo que incluya todos los procesos ADME.

3.2.1.3 Modelos de regresión lineal simple metabolismo

La tabla 4 permite apreciar como a diferencia de los dos

procesos analizados anteriormente, los descriptores

relacionados con el metabolismo (variables que describen la

estructura tridimensional) no presentan un p-value tan bajo,

lo que se traduce en dos variables no significativas

individualmente.

Tabla 4. Resultados regresiones simples descriptores metabolismo

Adicionalmente, se aprecia que los R2 registrados por cada

una de las variables no resultan altos, por lo que se

esperaría que los descriptores relacionados con la estructura

tridimensional de la molécula no estén incluidos en el

modelo final, o en caso de estarlo, no expliquen en gran

medida la toxicidad de la misma. Sin embargo, estos

resultados están sujetos al comportamiento de las variables

y a la posible existencia de observaciones atípicas.

3.2.2 Modelos de regresión lineal múltiple por proceso

Las secciones mostradas a continuación permiten visualizar

los resultados obtenidos para los modelos de regresión

lineal múltiple de cada uno de los procesos ADME

descritos previamente.

3.2.2.1 Modelos de regresión lineal múltiple absorción

Los resultados presentados en la tabla 5 permiten visualizar los modelos obtenidos para el proceso de absorción que registran los

mayores valores de R2.

Tabla 5. Regresiones múltiples descriptores de absorción

Variable w3d j3d h3d pji3

0.009 0.011 0.037 0.03𝑅2

* p<0.05, ** p<0.01, *** p<0.001

Standard errors in parentheses

rmse 1.052 1.025 1.041 1.047 1.019 1.015

BIC 908.3 892.5 906.5 900.6 884.2 886.7

AIC 889.8 874.0 884.3 885.8 869.4 868.2

adj. R-sq 0.363 0.396 0.377 0.370 0.403 0.407

R-sq 0.372 0.404 0.387 0.376 0.409 0.415

N 301 301 301 301 301 301

(0.442) (0.165) (0.176) (0.167) (0.401) (0.406)

_cons 0.412 2.065*** 2.162*** 2.121*** 0.553 0.421

(0.00192)

mw 0.00449*

(0.00313) (0.00323) (0.00225) (0.00225)

tpsatot 0.0117*** 0.0126*** 0.0132*** 0.0135***

(0.00178) (0.00172)

isiz -0.00693*** -0.00906***

(0.647) (0.623) (0.622)

mp 3.028*** 2.744*** 2.815***

(0.00465) (0.00932) (0.00815) (0.00742)

amr 0.0170*** 0.0222* -0.0173* 0.0439***

(0.0218) (0.0227) (0.0200)

mlogp2 -0.0506* -0.0398 -0.0357

(0.0958) (0.0787) (0.101) (0.0570) (0.0469) (0.0939)

mlogp 0.485*** 0.550*** 0.754*** 0.344*** 0.512*** 0.657***

LC50 LC50 LC50 LC50 LC50 LC50

(1) (2) (3) (4) (5) (6)

Page 7: Estimación del LC50 para sustancias químicas de uso ...

7

Como se esperaba gracias a los resultados obtenidos en los modelos de regresión lineal simple, los descriptores relacionados con

el coeficiente de partición octanol-agua resultan significativos en la mayor parte de los modelos. Muestra de esto es la presencia

de la variable mlogp con un p-value cercano a cero en los seis modelos seleccionados para el proceso de absorción.

Adicionalmente la variable mlogp2 resulta significativa en tres de los modelos presentados, sin embargo el p-value en este caso

no resulta tan bajo como el de la variable mencionada anteriormente, registrando valores ligeramente superiores a 0.05 en dos

casos y cercanos a 0.01 en el caso restante.

Por otro lado, la variable tpsatot (área de superficie polar), que resultó no significativa en el modelo de regresión lineal simple,

resulta significativa en cuatro de los modelos presentados, registrando un p-value cercano a cero. Además, los modelos que

incluyen este descriptor presentan valores de R2 superiores a los de los demás modelos establecidos para el proceso de absorción,

por lo que esta variable podría llegar a estar presente en el modelo final. Este cambio se debe a que la toxicidad empieza a

presentar cambios explicados por el área de superficie polar cuando el coeficiente de partición octanol-agua permanece

constante.

A pesar de que los valores de AIC y BIC registrados por el modelo seis resultan inferiores a los del modelo cinco (el mismo

modelo sin mlogp2), se trabajará con este último por tener un menor número de variables y presentar valores aproximadamente

iguales en estos indicadores.

3.2.2.2 Modelos de regresión lineal múltiple distribución

La tabla 6 presenta los cuatro modelos de regresión lineal

múltiple establecidos a partir de las variables asociadas al

proceso de distribución. Al igual que en el caso anterior, los

modelos presentados corresponden a conjuntos de variables

que presentan valores altos para el R2 ajustado.

Tabla 6. Regresiones múltiples de descriptores de distribución

Un análisis inicial de los valores de R2 ajustados registrados

para los modelos establecidos, permite apreciar que a pesar

de explicar de buena manera la toxicidad de la sustancia, las

variables relacionadas con el proceso de distribución

generan modelos de regresión que presentan valores

inferiores en el R2 ajustado y superiores en indicadores

como el AIC y el BIC.

3.2.2.3 Modelos de regresión lineal múltiple metabolismo

La tabla 7 presenta los dos modelos de regresión lineal

múltiple construidos a partir de descriptores de la estructura

tridimensional de la molécula que presentan un mayor R2

Tabla 7. Regresiones múltiples de descriptores de metabolismo

Los modelos descritos en la tabla anterior permiten apreciar

que al igual que en los modelos de regresión simple

establecidos en la sección anterior, la asociación de estos

descriptores no logra explicar de buena manera la toxicidad

de la sustancia, lo cual se refleja en bajos valores de R2

ajustado y altos valores de AIC y BIC.

* p<0.05, ** p<0.01, *** p<0.001

Standard errors in parentheses

rmse 1.127 1.141 1.141 1.196

BIC 945.1 947.6 947.5 975.9

AIC 930.3 936.4 936.4 964.7

adj. R-sq 0.269 0.252 0.252 0.178

R-sq 0.276 0.257 0.257 0.183

N 301 301 301 301

(0.168) (0.169) (0.168) (0.0897)

_cons 2.417*** 2.440*** 2.357*** 3.324***

(0.0353)

x5sol 0.219***

(0.0512) (0.0466)

nhacc -0.145** -0.210***

(0.0218) (0.0210) (0.0193)

x0sol 0.193*** 0.212*** 0.163***

(0.0953) (0.0866) (0.0907)

hy -0.272** -0.391*** -0.417***

LC50 LC50 LC50 LC50

(1) (2) (3) (4)

* p<0.05, ** p<0.01, *** p<0.001

Standard errors in parentheses

rmse 1.250 1.257

BIC 1007.5 1010.5

AIC 992.7 995.7

adj. R-sq 0.101 0.092

R-sq 0.110 0.101

N 301 301

(0.331) (0.192)

_cons 3.170*** 3.921***

(0.0000215)

w3d -0.0000583**

(0.476)

pji3 1.536**

(0.0482) (0.0481)

j3d -0.213*** -0.203***

(0.00108) (0.00184)

h3d 0.00454*** 0.00914***

LC50 LC50

(1) (2)

Page 8: Estimación del LC50 para sustancias químicas de uso ...

8

3.2.3 Modelos de regresión lineal múltiple ADME

Los datos registrados en la tabla 8 permiten apreciar los siete modelos construidos a partir de las variables elegidas para las

regresiones lineales múltiples establecidas previamente para cada uno de los procesos. Debido a los resultados obtenidos

anteriormente para las variables mlogp y mlogp2 (descriptores asociados al coeficiente de partición octanol-agua), se decidió

generar modelos que incluyeran las variables alogp y alogp2 (descriptores asociados al coeficiente de partición octanol-agua de

Ghose-Crippen) para comparar los resultados obtenidos para los diferentes indicadores en los modelos que implementan el

método de Moriguchi con los que implementan el de Ghose-Crippen.

Tabla 8. Regresiones lineales múltiples para todos los procesos ADME

Los modelos analizados muestran como la presencia de las variables alogp y alogp2 genera mejores valores de R2 ajustado, AIC

y BIC en los modelos que las contienen, por lo que es posible afirmar que estas explican de mejor manera la variable de interés

que los descriptores mlogp y mlogp2.

Teniendo en cuenta estos resultados, se decidió continuar con el modelo 1, ya que presenta un desempeño cercano al del mejor

modelo registrado en la tabla haciendo uso de únicamente cuatro variables.

* p<0.05, ** p<0.01, *** p<0.001

Standard errors in parentheses

rmse 0.965 1.031 0.966 0.960 0.952 0.938 1.008

BIC 856.2 891.4 866.5 858.0 852.6 862.8 891.6

AIC 837.7 876.5 840.5 835.8 830.3 825.7 865.7

adj. R-sq 0.464 0.389 0.463 0.470 0.479 0.494 0.416

R-sq 0.472 0.395 0.474 0.478 0.488 0.509 0.428

N 301 301 301 301 301 301 301

(0.135) (0.142) (0.178) (0.138) (0.134) (0.176) (0.157)

_cons 2.262*** 2.205*** 2.490*** 2.197*** 2.319*** 2.600*** 2.464***

(0.0669)

nc 0.216**

(0.298) (0.313)

np 0.909** 1.039**

(0.0293) (0.0384) (0.0291)

phi 0.0577 0.127** 0.0498

(0.0436) (0.0548) (0.0490)

x0sol 0.118** 0.230*** 0.165***

(0.00597) (0.00671) (0.00603)

tpsano -0.0124* -0.0179** -0.0225***

(0.0236) (0.0639) (0.0283)

sp -0.100*** -0.316*** -0.118***

(0.0517) (0.0707)

mlogp 0.683*** 0.600***

(0.00139) (0.000946) (0.00167) (0.00138)

h3d -0.00616*** -0.00328*** -0.00801*** -0.00655***

(0.00226) (0.00240) (0.00539) (0.00225) (0.00232) (0.00589) (0.00570)

tpsatot 0.0156*** 0.0160*** 0.0214*** 0.0154*** 0.0136*** 0.0230*** 0.0286***

(0.00871) (0.00753) (0.00868) (0.00859) (0.00768)

alogp2 -0.0188* -0.0287*** -0.0195* -0.0180* -0.0281***

(0.0563) (0.0761) (0.0561) (0.0555) (0.0818)

alogp 0.808*** 0.781*** 0.812*** 0.810*** 0.718***

LC50 LC50 LC50 LC50 LC50 LC50 LC50

(1) (2) (3) (4) (5) (6) (7)

Page 9: Estimación del LC50 para sustancias químicas de uso ...

9

3.3 Análisis de datos influyentes

Las secciones mostradas a continuación permiten apreciar

la manera en que fue posible distinguir las observaciones

influyentes incluidas en el modelo por medio del análisis de

los Dfbetas de las distintas variables para su posterior

eliminación.

3.3.1 Análisis de datos influyentes AlogP

La figura 1 muestra los valores de Dfbeta obtenidos para la

variable alogp graficados contra el número de observación.

Las líneas mostradas horizontalmente corresponden a los

valores críticos que permiten distinguir una observación

como influyente.

Fig. 1 Dfbetas para la variable alogp

La gráfica permite apreciar que existen diez valores por

encima de la línea crítica superior y doce valores por debajo

de la línea crítica inferior, por lo que deberían eliminarse un

total de 22 observaciones que resultan influyentes para esta

variable.

3.3.2 Análisis de datos influyentes alogp2

La figura 2 muestra los valores de Dfbeta obtenidos para la

variable alogp2 graficados contra el número de

observación.

Fig. 2 Dfbetas para la variable alogp2

En este caso, un total de 16 observaciones resultaron

influyentes, sin embargo, once de estas coincidieron con las

obtenidas para la variable anterior, por esto, se procedió a

omitir cinco observaciones adicionales.

3.3.3 Análisis de datos influyentes tpsatot

La figura 3 permite apreciar los Dfbeta obtenidos para la

variable TPSA(tot) (área de superficie polar). Al igual que

la variable alogp, este descriptor presenta gran cantidad de

datos influyentes que pueden estar afectando negativamente

los resultados del modelo.

Fig. 3 Dfbetas para la variable tpsatot

Para esta variable se registró un total de 21 observaciones

influyentes, sin embargo, doce de estas coincidieron con las

obtenidas por los descriptores anteriores, por esto, se

procedió a omitir nueve observaciones adicionales.

3.3.4 Análisis de datos influyentes H3D

La última variable analizada fue H3D, para la que se

obtuvieron 16 observaciones influyentes como permite

apreciar la figura 4.

Fig. 4 Dfbetas para la variable h3d

Teniendo en cuenta que en los pasos anteriores la mayoría

de observaciones influyentes ya habían sido eliminadas,

-1-.

50

.5

Dfb

eta

alo

gp

0 100 200 300numero

-.5

0.5

11

.5

Dfb

eta

alo

gp2

0 100 200 300numero

-.8

-.6

-.4

-.2

0.2

Dfb

eta

tp

sato

t

0 100 200 300numero

-.6

-.4

-.2

0.2

.4

Dfb

eta

h3

d

0 100 200 300numero

Page 10: Estimación del LC50 para sustancias químicas de uso ...

10

luego de este análisis se omitieron únicamente dos

observaciones adicionales.

3.4 Modelo de regresión lineal múltiple sin datos

influyentes

Luego de omitir los datos influyentes, se procedió a correr

nuevamente el modelo de regresión establecido

previamente a partir de los distintos descriptores

relacionados con los procesos ADME como se muestra en

el anexo A.1.

El análisis de esta tabla, permite apreciar que la variable

alogp2 pierde significancia en el nuevo modelo construido

con las 263 observaciones restantes. Por esto, se decidió

eliminar este descriptor del modelo y construir nuevos a

partir de las tres variables restantes (alogp, tpsatot y h3d) y

algunas nuevas variables, obteniendo así los resultados

registrados en el anexo A.2.

A pesar de no registrar el mayor R2 ni el menor valor en

indicadores como el AIC y el BIC, se eligió el modelo 1 por

encima de los demás por presentar descriptores de fácil

cálculo y adicionalmente presentar un menor número de

variables sin grandes diferencias en su desempeño

obteniendo así los resultados registrados en el anexo A.3.

3.5 Análisis de multicolinealidad

Una vez establecido el modelo sin datos influyentes se

procedió a verificar la multicolinealidad. Para este fin se

hizo uso del VIF como indicador de la relación entre las

variables.

El anexo A.4 permite apreciar que los valores del VIF

registrados para las tres variables implementadas en el

modelo se encuentran entre 1.31 y 1.55, esto se traduce en

una relación entre los descriptores de máximo 0.35, lo cual

no corresponde a problemas de multicolinealidad.

3.6 Análisis y corrección de heterocedasticidad

A continuación se muestran los resultados obtenidos para

las distintas pruebas de heterocedasticidad realizadas al

modelo y los resultados obtenidos luego de la corrección de

este problema.

3.6.1 Análisis inicial del modelo seleccionado

Después de realizar la prueba de heterocedasticidad de

Breusch-Pagan/Cook-Weisberg haciendo uso de la

herramienta estadística Stata® fue posible obtener los

resultados registrados en el anexo A.5.1.

El p-value obtenido para el estimador 𝜒2 permite afirmar

que el modelo presenta problemas de heterocedasticidad, lo

que podría generar estimaciones erróneas a partir de las

variables establecidas. Por esta razón se procedió a realizar

un análisis de los efectos de cada descriptor sobre la

varianza del modelo.

3.6.2 Análisis de efectos de sencillos y cuadrados de las

variables

Los resultados registrados en los anexos del A.5.2 al A.5.7

permiten apreciar que la variable AlogP presenta los peores

resultados para el test de heterocedasticidad realizado, tanto

para efectos sencillos como cuadrados. Por esta razón, se

consideró pertinente realizar una transformación sobre el

modelo con base en uno de estos dos efectos; seleccionando

finalmente los efectos cuadrados como base para la

transformación por permitir obtener un modelo con

constante.

3.6.3 Resultados modelo transformado

En la tabla 9 se aprecia el modelo de regresión lineal obtenido luego de transformar las distintas variables como se estableció

previamente. En esta, la variable Y corresponde a la transformación del LC50, x1 a la transformación de la constante, x2 a la

transformación del descriptor TPSA(tot) y x3 al mismo cambio realizado sobre la variable H3D.

Tabla 9. Modelo de regresión lineal múltiple transformado

_cons .936617 .1372171 6.83 0.000 .

x3 -.0350701 .0020106 -17.44 0.000 -.2766863

x2 .0178487 .0016736 10.66 0.000 .3093623

x1 3.928627 .1528199 25.71 0.000 .9433975

y Coef. Std. Err. t P>|t| Beta

Total 148126.348 262 565.36774 Root MSE = 2.0149

Adj R-squared = 0.9928

Residual 1051.49566 259 4.05982881 R-squared = 0.9929

Model 147074.852 3 49024.9507 Prob > F = 0.0000

F( 3, 259) =12075.62

Source SS df MS Number of obs = 263

Page 11: Estimación del LC50 para sustancias químicas de uso ...

11

Los resultados registrados permiten apreciar que a pesar de la transformación realizada todas las variables continúan siendo

significativas, por lo que se puede afirmar que el modelo continúa explicando la toxicidad de las sustancias. Adicionalmente, al

analizar el valor obtenido en el test de Breusch-Pagan/Cook-Weisberg para el modelo transformado, registrado en el anexo A.6,

es posible establecer que el problema de heterocedasticidad fue solucionado y la varianza del error no está siendo explicada por

ninguna de las nuevas variables. De esta manera fue posible obtener la siguiente ecuación que permite relacionar la toxicidad de

la sustancia con los descriptores seleccionados para explicar la misma.

𝐿𝐶50 (− log (𝑚𝑜𝑙

𝐿)) = 3.92 + 0.93𝐴𝑙𝑜𝑔𝑃 + 0.017 𝑇𝑃𝑆𝐴(𝑡𝑜𝑡) − 0.035 𝐻3𝐷

4. Discusión de resultados

La discusión de los resultados mostrada a continuación se

centró en dos puntos: la explicación de la naturaleza de las

variables establecidas en el modelo y su relación con la

toxicidad y la aplicabilidad del modelo y validez de los

resultados obtenidos.

4.1 Análisis de variables elegidas

A continuación se presenta una interpretación de los

resultados obtenidos para cada una de las variables

establecidas en el modelo, basado en aspectos como el

coeficiente registrado en la regresión, el método de

obtención de las mismas y su relación con la toxicidad

registrada por la sustancia en términos del LC50.

4.1.1 Coeficiente de partición octanol-agua de Ghose-

Crippen (Alogp)

Los datos registrados para el descriptor Alogp son

calculados a partir de una ecuación de regresión basada en

la contribución a la hidrofobicidad de 115 tipos de átomos

registrados en el anexo A.7. Cada átomo de las moléculas

estudiadas es clasificado en uno de estos grupos para luego

obtener una estimación de logP a partir de la siguiente

ecuación:

𝐴𝑙𝑜𝑔𝑃 = ∑ 𝑛𝑖𝑎𝑖𝑖

Donde 𝑛𝑖 corresponde a la cantidad de átomos del tipo i,

mientras que 𝑎𝑖 representa la constante de hidrofobicidad de

este tipo de átomo [29].

Teniendo en cuenta la descripción anterior de la variable

alogp y el coeficiente obtenido para la misma en el modelo

de regresión (aporte positivo al logaritmo del LC50 en

mol/L), es posible afirmar al visualizar la tabla de

contribuciones hidrofóbicas, que existen posiciones en las

que se puede localizar un átomo que pueden llegar a

aumentar la toxicidad del compuesto o por el contrario

disminuir este valor en la sustancia.

Por ejemplo, la presencia de un radical alcohol (OH) hace

un aporte negativo a la hidrofobicidad de la molécula, por

lo que se podría llegar a pensar que un compuesto con una

gran presencia de estos radicales y sin presencia de otros

que puedan llegar a hacer un aporte positivo al coeficiente

de partición debería presentar un valor bajo para el LC50.

Al analizar el valor de esta medida para los distintos

compuestos que conforman la base de datos manejada, se

evidencia que los compuestos menos tóxicos son el

etilenglicol, dietilenglicol, 2-etoxietanol, entre otros;

sustancias que presentan en su estructura el radical

mencionado previamente.

Por otra parte, la presencia de elementos halógenos tiene un

aporte positivo en todos los casos a la hidrofobicidad de la

sustancia, por lo que es posible afirmar que si estos forman

parte del compuesto estudiado, el valor del LC50 registrado

será alto. Una muestra de esto es la presencia de cloro en

seis de los diez compuestos más tóxicos presentes en la

base y la presencia de halógenos en trece de los veinticinco

compuestos con mayor LC50, ambos casos sin incluir

observaciones influyentes. Adicionalmente, los aportes

hechos por estos elementos resultan los más altos

registrados en la tabla, lo que se ve reflejado en la

clasificación en las categorías 1 y 2 (compuestos más

tóxicos) de la mayoría de los compuestos que los contienen.

Finalmente es importante establecer siguiendo los valores

obtenidos para los coeficientes estandarizados, que el

coeficiente de partición octanol-agua de Ghose Crippen es

la variable que tiene un mayor efecto sobre la toxicidad de

la sustancia siguiendo el modelo establecido.

4.1.2 Área de superficie polar topológica (TPSA)

Los valores registrados en la base de datos para la variable

TPSA(tot) son calculados siguiendo el modelo propuesto

por Ertl, el cual se basa en un método de contribuciones de

grupo [30]. Para el caso de este descriptor el modelo tiene

en cuenta fragmentos polares con nitrógeno y oxígeno,

adicionando fragmentos “ligeramente polares” que

contengan fósforo y azufre. Los aportes de cada grupo al

valor final obtenido para el área de superficie polar se

muestran en el anexo A.8. De esta manera, el TPSA de una

molécula es determinado a partir de la sumatoria de

contribuciones de superficie de los distintos tipos de grupos

polares tabulados como muestra la siguiente ecuación

Page 12: Estimación del LC50 para sustancias químicas de uso ...

12

𝑇𝑃𝑆𝐴 = ∑ 𝑛𝑖𝑐𝑖𝑖

Donde i representa los distintos tipos de fragmentos polares

definidos, 𝑛𝑖 es la frecuencia con que se presenta cada tipo

en la molécula y 𝑐𝑖 expresa la contribución a la superficie

de un fragmento de tipo i.

Para el caso del área de superficie polar topológica, el

efecto resulta similar al del descriptor analizado

anteriormente ya que la variable presenta un coeficiente

positivo al interior de la regresión. A diferencia del

descriptor AlogP, todas las contribuciones de los distintos

radicales registrados resultan positivas, haciendo que la

presencia de los mismos incremente la toxicidad de la

sustancia por su aporte al descriptor TPSA(tot). Los valores

de LC50 registrados en la base de datos permiten apreciar

que existe un claro efecto de estos radicales en la toxicidad

de la sustancia, por ejemplo, compuestos como el trifenil

fosfato o el TEPP presentan en su estructura el átomo de

tipo 42 registrado en la tabla, una y dos veces

respectivamente.

La presencia de un átomo de oxígeno unido con un doble

enlace a un átomo de cualquier elemento diferente al

hidrógeno, registrado bajo el número 29 en la tabla, también

resulta en un aporte significativo al TPSA. Este tipo de

átomo resulta bastante común en compuestos orgánicos por

su presencia en los grupos formilo (componente de los

aldehídos), carbonilo (componente de las cetonas),

carboxilo (componente de los ácidos carboxílicos), entre

otros. Compuestos como el 2-propanal, la quinona y el

endotal monohidrato, registrados entre los diez más tóxicos

manejados en la base de datos, presentan estos tres grupos

de manera respectiva, por lo que es posible afirmar que el

aporte hecho por este átomo a la polaridad del compuesto

está relacionado de manera directa con la toxicidad del

mismo.

4.1.3 Índice 3D de Harary

En la química matemática, un índice topológico es un

número usado para caracterizar alguna propiedad de la

estructura de un compuesto. Uno de los más utilizados es el

índice de Harary, el cual analiza la molécula de una

sustancia como un grafo donde cada átomo representa un

nodo y los enlaces corresponden a aristas, bajo este

supuesto se caracteriza la estructura del compuesto a partir

de la siguiente fórmula.

𝐻(𝐺) = ∑1

𝑑𝐺(𝑢, 𝑣)𝑢,𝑣∈𝑉(𝐺)

Donde G corresponde al grafo de la molécula, V(G) al

conjunto de nodos (átomos) del grafo y 𝑑𝐺 a la distancia

entre dos átomos en términos de aristas [31]. De esta

manera, el índice de Harary resume en un valor la cantidad

de átomos y la distribución de los mismos de una manera

simplificada.

Los avances computacionales han permitido desarrollar

estimaciones más complejas de este índice ajustadas al tipo

de sustancia y la distribución de los átomos en la molécula.

Esto ha permitido que esta expresión incluya información

sobre el tamaño de la molécula (cantidad de átomos) y las

distancias entre átomos (en términos de la masa de los

mismos).

Teniendo en cuenta la explicación anterior y el coeficiente

negativo obtenido para la variable H3D en el modelo de

regresión establecido, es posible afirmar que una sustancia

de gran tamaño que no presente los átomos y fragmentos de

gran impacto explicados en las secciones anteriores o los

presente en baja cantidad debería registrar un valor bajo

para el LC50. Un ejemplo de esto es el Dietil

benzilfosfonato, esta sustancia presenta dos átomos de tipo

27, un átomo de tipo 29 y un átomo de tipo 42, los cuales

generan un aporte significativo al área de superficie polar

según el anexo A.12. Sin embargo dado su tamaño

(presenta 32 átomos), este compuesto registra un valor de

140.84 en el índice 3D de Harary lo que resulta en un alto

LC50 y por tanto su clasificación en la categoría 5. Otro

ejemplo es la 2’,3’,4’-Trimetoxiacetofenona que presenta

cuatro átomos de oxígeno en su estructura representados en

una función cetona y tres funciones éter. Al igual que en el

caso anterior estos átomos realizan un aporte importante a

la variable TPSA(tot), sin embargo el tamaño de la

molécula lleva a que el valor del descriptor H3D para esta

sea de 121.27 haciendo este compuesto poco tóxico.

Contrario a los casos expuestos previamente se encuentran

sustancias como el trifenil fosfato. Este compuesto a pesar

de presentar un valor de 175.1 para el H3D, registra un

valor bajo para el LC50 que lo clasifica en la categoría 2.

Esto podría resultar contradictorio a lo expuesto

previamente, sin embargo esta sustancia registra un valor

mayor para los otros dos descriptores incluidos en el

modelo que las sustancias analizadas anteriormente,

además, el coeficiente estandarizado obtenido para el índice

3D de Harary en el modelo establecido resulta mucho

menor al registrado por las otras variables. Por esta razón, a

medida que estas variables crecen, el tamaño de la molécula

y por tanto el H3D registrado por la sustancia pierden

importancia en el cálculo de la toxicidad de la misma.

4.2 Aplicabilidad del modelo

Teniendo en cuenta el R2 obtenido para el modelo final es

posible afirmar que la regresión desarrollada se establece

como una herramienta inicial útil en la clasificación de

sustancias de acuerdo a su toxicidad, sin embargo, el uso

del mismo no puede reemplazar las pruebas sobre animales

Page 13: Estimación del LC50 para sustancias químicas de uso ...

13

ya que no se conoce con certeza la totalidad de variables

que participan en la acción de un químico en el organismo.

Por otro lado, la estructura de los descriptores elegidos hace

del modelo obtenido en este estudio una herramienta de

fácil aplicación. Si se analizan las fórmulas que describen

variables como el coeficiente de partición octanol-agua de

Ghose-Crippen y el área de superficie polar topológica es

posible apreciar que los valores de éstas pueden ser

obtenidos fácilmente con ayuda de las tablas citadas en este

artículo y presentes en gran cantidad de fuentes de la

literatura sin necesidad de ningún tipo de prueba de

laboratorio.

Adicionalmente, los avances en el estudio de descriptores y

el cálculo computacional de los mismos han llevado al

desarrollo de herramientas como Dragon, un software

creado por Kode Chemoinformatics que permite calcular

los valores de 5270 descriptores (incluidos los tres usados

en el modelo) para gran cantidad de moléculas entre las que

se encuentran las trabajadas en este estudio [32]. De esta

manera, el uso del modelo construido, complementado con

la implementación de un software de estimación de

descriptores o el cálculo manual de los mismos, se establece

como una buena primera aproximación en el cálculo del

LC50 de compuestos orgánicos, incluidos solventes

comúnmente usados en la industria farmacéutica.

5. Conclusiones

La significancia registrada por los descriptores incluidos en

el modelo de regresión planteado en el estudio y el valor

obtenido por el mismo en indicadores como el R2, el AIC y

el BIC permiten establecer que a pesar de que no se conoce

con exactitud la relación existente entre propiedades como

la toxicidad de una sustancia y las variables implementadas,

los modelos QSAR representan una herramienta útil para la

estimación de estos parámetros ante la falta de valores

empíricos por pruebas de laboratorio (sin llegar a

reemplazarlas). Adicionalmente, estos métodos permiten

llevar a cabo una clasificación aproximada de compuestos

ante la falta de información que muchas veces se registra

para sustancias poco manejadas, por los costos y el tiempo

que acarrean este tipo de pruebas.

Siguiendo la idea anterior, ante la necesidad de parámetros

de seguridad como el LC50 sin incurrir en grandes costos

de investigación, la exactitud e implementación cada vez

mayor de estos métodos en la industria dependerá del

desarrollo de herramientas computacionales para el cálculo

de descriptores y el perfeccionamiento de las expresiones

relacionadas al cálculo de cada uno de estos.

Nomenclatura

Descriptores

MW Molecular weight

ISIZ Information index on molecular size

Sp Sum of atomic polarizabilities

Mp Mean atomic polarizability

X0sol Solvation connectivity index chi-0

X1sol Solvation connectivity index chi-1

X2sol Solvation connectivity index chi-2

X3sol Solvation connectivity index chi-3

X4sol Solvation connectivity index chi-4

X5sol Solvation connectivity index chi-5

W3D 3D Wiener index

J3D 3D Balaban index

H3D 3D Harary index

PJI3 3D Ptitjean shape index

nCL Number of Chlorine atoms

nH Number of Hydrogen atoms

nBR Number of Bromine atoms

nC Number of Carbon atoms

nN Number of Nitrogen atoms

nP Number of Nitrogen atoms

nRNH2 Number of primary amines (aliphatic)

nArNH2 Number of primary amines (aromatic)

nRNHR Number of secondary amines (aliphatic)

nArNHR Number of secondary amines (aromatic)

nS Number of Sulfur atoms

nHAcc Number of acceptor atoms for Hbonds(N,O,F)

Hy Hydrophilic factor

PHI Kier flexibility index

AMR Ghose-Crippen molar refractivity

TPSA(NO) Fragment-based polar surface area (using N,O)

TPSA(Tot) Fragment-based polar surface area(using

N,O,S,P)

MLOGP Moriguchi octanol-water partition coeff.(logP)

Page 14: Estimación del LC50 para sustancias químicas de uso ...

14

MLOGP2 Squared Moriguchi octanol-water partition

coeff.(logP^2)

ALOGP Ghose-Crippen octanol-water partition

coeff.(logP)

ALOGP2 Squared Ghose-Crippen octanol-water

partition coeff.(logP^2)

Bibliografía

[1] OSHA, «Hazard communication: Foundation of

Workplace Chemical Communication,» 2010. [En línea].

Available: https://www.osha.gov/dsg/hazcom/index.html.

[Último acceso: 14 09 2015].

[2] F. A. Quintero, S. J. Patel, F. Muñoz y M. S.

Mannan, «Review of existing QSAR/QSPR models

developed for properties used in hazardous chemicals

classification system,» Universidad de los Andes, Bogotá,

2012.

[3] Ministerio de Relaciones Exteriores de la

República de Colombia, «Informe Nacional a la Comisión

Sobre el Desarrollo Sostenible en Relación con las Esferas

Temáticas de sus Períodos de Sesiones 18º y 19º (Productos

Químicos, Mínería, Marco Decenal de Programas Sobre

Pautas Sostenibles de Producción y Consumo),» Bogotá,

2011.

[4] Neavs, «Product Development and Drug Testing,»

2015. [En línea]. Available:

http://www.neavs.org/research/testing. [Último acceso: 10

Noviembre 2015].

[5] A. R. Katritzky y V. S. Lobanov, «QSPR: The

Correlation and Quantitative Prediction of Chemical and

Physical Properties from Structure,» Chemical Society

Reviews, nº 24, pp. 279-287, 1995.

[6] C. Nieto-Draghi, G. Fayet, B. Creton, X.

Rozanska, P. Rotureau, J.-C. de Hemptinne, P. Ungerer, B.

Rousseau y C. Adamo, «A General Guidebook for the

Theoretical Prediction of Physicochemical Properties of

Chemicals for Regulatory Purposes,» Chemical Reviews,

París, 2015.

[7] K. Roy, S. Kar y R. N. Das, Understanding the

Basics of QSAR for Applications in Pharmaceutical

Sciences and Risk Assessment, San Diego: Elsevier, 2015.

[8] H. Kubinyi, QSAR: Hansch Analysis and Related

Approaches, Wenheim: VCH, 1993.

[9] J. Gasteiger y T. Engel, Chemoinformatics,

Weinheim: Wiley-VCH, 2003.

[10] J. Devillers y J. Flatin, «A general QSAR model

for predicting the acute toxicity of pesticides to LEPOMIS

MACROCHIRUS,» SAR and QSAR in Environmental

Research, pp. 397-417, 2001.

[11] R. Garcia-Domonech y P. Alarcon-Elbal,

«Prediction of acute toxicity of organophosphorus

pesticides using topological indices,» SAR and QSAR in

Environmental Research, pp. 745-755, 2007.

[12] Canadian Centre for Occupational Health and

Safety, «OSH Answers Fact Sheets,» 28 Agosto 2013. [En

línea]. Available:

http://www.ccohs.ca/oshanswers/chemicals/ld50.html.

[Último acceso: 27 Febrero 2016].

[13] R. Todeschini, «Acute toxicity to fish dataset,» [En

línea]. Available:

http://michem.disat.unimib.it/chm/download/toxicityfish.ht

m. [Último acceso: 27 Febrero 2016].

[14] The OECD QSAR Toolbox for Grouping

Chemicals into Categories, «QSAR Toolbox,» Organisation

for Economic Co-operation and Development, 2010. [En

línea]. Available: http://www.qsartoolbox.org/.

[15] United States Environmental Protection Agency,

«Ecotox Database,» [En línea]. Available:

http://cfpub.epa.gov/ecotox/.

[16] ECETOC. European Centre For Ecotoxicology and

Toxicology of Chemicals, «TR 091-ECETOC Aquatic

Toxicity (EAT) database,» 2003. [En línea]. Available:

http://www.ecetoc.org/technical-reports.

[17] M. Cassotti, D. Ballabio, R. Todeschini y V.

Consonni, «A similarity-based QSAR model for predicting

acute toxicity towards the fathead minnow (Pimephales

promelas),» SAR and QSAR in Environmental Research,

vol. 26, nº 3, pp. 217-243, 2015.

[18] D. Ballabio, A. Manganaro, V. Consonni, A. Mauri

y R. Todeschini, «Introduction to MOLE DB - on-line

Molecular Descriptors Database,» MATCH

communications in mathematical and in computer

chemistry, 2009. [En línea]. Available:

http://michem.disat.unimib.it/mole_db/help/query_help_intr

o.php. [Último acceso: 29 Febrero 2016].

[19] Agency for Toxic Substances and Disease Registry

(ATSDR), «EPA Reportable Quantity Methodology Used

to Establish Toxicity/Environmental Scores for the

Substance Priority List,» ATSDR, Atlanta.

[20] G. James, D. Witten, T. Hastie y R. Tibshirani,

«An Introduction to Statistical Learning,» Nueva York,

Springer, 2013, p. 204.

[21] S. D. Krämer y H. Wunderli-Allenspach,

«Physicochemical properties in pharmacokinetic lead

optimization,» Elsevier, Zurich, 2001.

[22] P. C. Burcham, «An Introduction to Toxicology,»

Nueva York, Springer, 2014, pp. 55-59.

[23] P. C. Burcham, «An Introduction to Toxicology,»

Nueva York, Springer, 2014, pp. 59-60.

Page 15: Estimación del LC50 para sustancias químicas de uso ...

15

[24] P. C. Burcham, «An Introduction to Toxicology,»

Nueva york, Soringer, 2014, pp. 61-62.

[25] P. C. Burcham, «An Introduction to Toxicology,»

Nueva York, Springer, 2014, p. 66.

[26] A. C. Acock, «Influential observation: DFbeta,» de

A Gentle Introduction to Stata, College Station, Stata Press,

2008, p. 237.

[27] D. N. Gujarati, «Multicollinearity,» de Basic

Econometrics, McGraw-Hill, 2002, p. 356.

[28] D. N. Gujarati, «Heteroscedasticity,» de Basic

Econometrics, McGraw-Hill, 2002, p. 423.

[29] A. K. Ghose y G. M. Crippen, «Atomic

Physicochemical Parameters for Three-Dimensional

Structure-Directed Quantitative Structure-Activity

Relationships I. Partition Coefficients as a Measure of

hydrophobicity,» Michigan, 1986.

[30] P. Ertl, B. Rohde y P. Selzer, «Fast Calculation of

Molecular Polar Surface Area as a Sum of Fragment-Based

Contributions and Its Application to the Prediction of Drug

Transport Properties,» J. Med. Chem, vol. 43, pp. 3714-

3717, 2000.

[31] K. Xu, K. C. Das y N. Trinajstic, «The Harary

Index,» de The Harary Index of a Graph, Heidelberg,

Springer, 2015, pp. 2-4.

[32] Kode Chemoinformatics, «Dragon 7.0,» Kode

Chemoinformatics, [En línea]. Available: https://chm.kode-

solutions.net/products_dragon.php. [Último acceso: 4 Mayo

2016].

[33] Talete, «Atom-centred fragments,» Talete, [En

línea]. Available:

http://www.talete.mi.it/help/dproperties_help/index.html?m

olecular_properties.htm. [Último acceso: 8 Mayo 2016].

[34] Talete, «Molecular properties,» Talete, [En línea].

Available:

http://www.talete.mi.it/help/dproperties_help/index.html?m

olecular_properties.htm. [Último acceso: 8 Mayo 2016].

Page 16: Estimación del LC50 para sustancias químicas de uso ...

16

Anexos

A.1. Modelo de regresión lineal múltiple establecido sin datos influyentes

A.2. Modelos de regresión lineal múltiple para variables ADME sin datos influyentes

_cons 2.125201 .1170979 18.15 0.000 1.894612 2.35579

h3d -.0045201 .0010955 -4.13 0.000 -.0066775 -.0023628

tpsatot .014965 .0019902 7.52 0.000 .0110459 .0188841

alogp2 .0214911 .0173928 1.24 0.218 -.0127589 .055741

alogp .7021858 .0790485 8.88 0.000 .5465233 .8578483

LC50 Coef. Std. Err. t P>|t| [95% Conf. Interval]

Total 322.178354 262 1.22968837 Root MSE = .65931

Adj R-squared = 0.6465

Residual 112.150346 258 .434691264 R-squared = 0.6519

Model 210.028007 4 52.5070018 Prob > F = 0.0000

F( 4, 258) = 120.79

Source SS df MS Number of obs = 263

* p<0.05, ** p<0.01, *** p<0.001

Standard errors in parentheses

rmse 0.660 0.678 0.649 0.641 0.639 0.755

BIC 546.0 556.0 541.6 539.8 538.4 612.0

AIC 531.8 545.3 523.8 518.4 517.0 601.2

adj. R-sq 0.646 0.626 0.658 0.666 0.668 0.537

R-sq 0.650 0.629 0.663 0.672 0.674 0.540

N 263 263 263 263 263 263

(0.104) (0.106) (0.103) (0.121) (0.124) (0.123)

_cons 2.057*** 2.009*** 2.010*** 1.831*** 2.200*** 2.017***

(0.0396)

mlogp 0.692***

(0.0210)

sp -0.125***

(0.0283) (0.0362)

x0sol 0.0765** 0.163***

(0.0221) (0.0224) (0.0210)

phi 0.0698** 0.0836*** 0.0720***

(0.00108) (0.00133) (0.00142)

h3d -0.00429*** -0.00680*** -0.00831***

(0.00199) (0.00186) (0.00196) (0.00267) (0.00269) (0.00210)

tpsatot 0.0151*** 0.0118*** 0.0148*** 0.00983*** 0.00827** 0.0132***

(0.0391) (0.0334) (0.0385) (0.0540) (0.0542)

alogp 0.787*** 0.701*** 0.782*** 0.678*** 0.720***

LC50 LC50 LC50 LC50 LC50 LC50

(1) (2) (3) (4) (5) (6)

Page 17: Estimación del LC50 para sustancias químicas de uso ...

17

A.3. Modelo de regresión lineal múltiple final

A.4. Resultados análisis de multicolinealidad

A.5. Pruebas de heterocedasticidad de Breusch-Pagan

A.5.1. Prueba de heterocedasticidad modelo final

A.5.2 Prueba de heterocedasticidad para el descriptor AlogP

A.5.3 Prueba de heterocedasticidad para el descriptor TPSA(tot)

_cons 2.05734 .1035252 19.87 0.000 .

h3d -.0042864 .0010802 -3.97 0.000 -.1804939

tpsatot .0150604 .0019907 7.57 0.000 .3177869

alogp .7871068 .0390944 20.13 0.000 .9227543

LC50 Coef. Std. Err. t P>|t| Beta

Total 322.178354 262 1.22968837 Root MSE = .65998

Adj R-squared = 0.6458

Residual 112.814023 259 .435575379 R-squared = 0.6498

Model 209.36433 3 69.7881101 Prob > F = 0.0000

F( 3, 259) = 160.22

Source SS df MS Number of obs = 263

Mean VIF 1.46

tpsatot 1.31 0.766211

h3d 1.53 0.653482

alogp 1.55 0.643625

Variable VIF 1/VIF

Prob > chi2 = 0.0020

chi2(1) = 9.51

Variables: fitted values of LC50

Ho: Constant variance

Breusch-Pagan / Cook-Weisberg test for heteroskedasticity

Prob > chi2 = 0.0001

chi2(1) = 15.44

Variables: alogp

Ho: Constant variance

Breusch-Pagan / Cook-Weisberg test for heteroskedasticity

Prob > chi2 = 0.0338

chi2(1) = 4.50

Variables: tpsatot

Ho: Constant variance

Breusch-Pagan / Cook-Weisberg test for heteroskedasticity

Page 18: Estimación del LC50 para sustancias químicas de uso ...

18

A.5.4 Prueba de heterocedasticidad para el descriptor H3D

A.5.5 Prueba de heterocedasticidad de los efectos cuadrados de AlogP

A.5.6 Prueba de heterocedasticidad de los efectos cuadrados de TPSA(tot)

A.5.7 Prueba de heterocedasticidad de los efectos cuadrados de H3D

A.6. Prueba de heterocedasticidad para el modelo transformado

Prob > chi2 = 0.0099

chi2(1) = 6.65

Variables: h3d

Ho: Constant variance

Breusch-Pagan / Cook-Weisberg test for heteroskedasticity

Prob > chi2 = 0.0001

chi2(1) = 15.21

Variables: AlogPCuad

Ho: Constant variance

Breusch-Pagan / Cook-Weisberg test for heteroskedasticity

Prob > chi2 = 0.6707

chi2(1) = 0.18

Variables: TPSAtotCuad

Ho: Constant variance

Breusch-Pagan / Cook-Weisberg test for heteroskedasticity

Prob > chi2 = 0.0811

chi2(1) = 3.04

Variables: H3DCuad

Ho: Constant variance

Breusch-Pagan / Cook-Weisberg test for heteroskedasticity

Prob > chi2 = 0.3948

chi2(1) = 0.72

Variables: fitted values of y

Ho: Constant variance

Breusch-Pagan / Cook-Weisberg test for heteroskedasticity

Page 19: Estimación del LC50 para sustancias químicas de uso ...

19

A.7. Tabla de aportes de fragmentos

ID Symbol Description Hydrophobicity ID Symbol Description Hydrophobicity

1 C-001 CH3R / CH4 -1.5603 59 O-060 Al-O-Ar / Ar-O-Ar / R..O..R / R-O-C=X 0.0324

2 C-002 CH2R2 -1.012 60 O-061 O-- c 1.052

3 C-003 CHR3 -0.6681 61 O-062 O- (negatively charged) -0.7941

4 C-004 CR4 -0.3698 62 O-063 R-O-O-R 0.4165

5 C-005 CH3X -1.788 63 Se-064 Any-Se-Any 0.6601

6 C-006 CH2RX -1.2486 64 Se-065 =Se -

7 C-007 CH2X2 -1.0305 65 N-066 Al-NH2 -0.5427

8 C-008 CHR2X -0.6805 66 N-067 Al2-NH -0.3168

9 C-009 CHRX2 -0.3858 67 N-068 Al3-N 0.0132

10 C-010 CHX3 0.7555 68 N-069 Ar-NH2 / X-NH2 -0.3883

11 C-011 CR3X -0.2849 69 N-070 Ar-NH-Al -0.0389

12 C-012 CR2X2 0.02 70 N-071 Ar-NAl2 0.1087

13 C-013 CRX3 0.7894 71 N-072 RCO-N< / >N-X=X -0.5113

14 C-014 CX4 1.6422 72 N-073 Ar2NH / Ar3N / Ar2N-Al / R..N..Rd 0.1259

15 C-015 =CH2 -0.7866 73 N-074 R#N / R=N- 0.1349

16 C-016 =CHR -0.3962 74 N-075 R--N--Re / R--N--X -0.1624

17 C-017 =CR2 0.0383 75 N-076 Ar-NO2 / R--N(--R)--Of / RO-NO -2.0585

18 C-018 =CHX -0.8051 76 N-077 Al-NO2 -1.915

19 C-019 =CRX -0.2129 77 N-078 Ar-N=X / X-N=X 0.4208

20 C-020 =CX2 0.2432 78 N-079 N+ (positively charged) -1.4439

21 C-021 #CH 0.4697 79 F-081 Fa attached to C

1(sp3) 0.4797

22 C-022 #CR / R=C=R 0.2952 80 F-082 Fa attached to C

2(sp3) 0.2358

23 C-023 #CX - 81 F-083 Fa attached to C

3(sp3) 0.1029

24 C-024 R--CH--R -0.3251 82 F-084 Fa attached to C

1(sp2) 0.3566

25 C-025 R--CR--R 0.1492 83 F-085 Fa attached to C

2(sp2)-C

4(sp2) / C

1(sp) / C

4(sp3) / X 0.1988

26 C-026 R--CX--R 0.1539 84 Cl-086 Cla attached to C

1(sp3) 0.7443

27 C-027 R--CH--X 0.0005 85 Cl-087 Cla attached to C

2(sp3) 0.5337

28 C-028 R--CR--X 0.2361 86 Cl-088 Cla attached to C

3(sp3) 0.2996

29 C-029 R--CX--X 0.3514 87 Cl-089 Cla attached to C

1(sp2) 0.8155

30 C-030 X--CH--X 0.1814 88 Cl-090 Cla attached to C

2(sp2)-C

4(sp2) / C

1(sp) / C

4(sp3) / X 0.4856

31 C-031 X--CR--X 0.0901 89 Br-091 Bra attached to C

1(sp3) 0.8888

32 C-032 X--CX--X 0.5142 90 Br-092 Bra attached to C

2(sp3) 0.7452

33 C-033 R--CH..X -0.3723 91 Br-093 Bra attached to C

3(sp3) 0.5034

34 C-034 R--CR..X 0.2813 92 Br-094 Bra attached to C

1(sp2) 0.8995

35 C-035 R--CX..X 0.1191 93 Br-095 Bra attached to C

2(sp2)-C

4(sp2) / C

1(sp) / C

4(sp3) / X 0.5946

36 C-036 Al-CH=X -0.132 94 I-096 Ia attached to C

1(sp3) 1.4201

37 C-037 Ar-CH=X -0.0244 95 I-097 Ia attached to C

2(sp3) 1.1472

38 C-038 Al-C(=X)-Al -0.2405 96 I-098 Ia attached to C

3(sp3) -

39 C-039 Ar-C(=X)-R -0.0909 97 I-099 Ia attached to C

1(sp2) 0.7293

40 C-040 R-C(=X)-X / R-C#X / X=C=X -0.1002 98 I-100 Ia attached to C

2(sp2)-C

4(sp2) / C

1(sp) / C

4(sp3) / X 0.7173

41 C-041 X-C(=X)-X 0.4182 99 F-101 fluoride ion -

42 C-042 X--CH..X -0.2147 100 Cl-102 chloride ion -2.6737

42 C-043 X--CR..X -0.0009 101 Br-103 bromide ion -2.4178

44 C-044 X--CX..X 0.1388 102 I-104 iodide ion -3.1121

45 H-046 Ha attached to C

0(sp3) no X attached to next C 0.7341 103 S-106 R-SH 0.6146

46 H-047 Ha attached to C

1(sp3) / C

0(sp2) 0.6301 104 S-107 R2S / RS-SR 0.5906

47 H-048 Ha attached to C

2(sp3) / C

1(sp2) / C

0(sp) 0.518 105 S-108 R=S 0.8758

48 H-049 Ha attached to C

3(sp3) / C

2(sp2) / C

3(sp2) / C

3(sp) -0.0371 106 S-109 R-SO-R -0.4979

49 H-050 H attached to heteroatom -0.1036 107 S-110 R-SO2-R -0.3786

50 H-051 H attached to alpha-Cb 0.5234 108 Si-111 >Si< 1.5188

51 H-052 Ha attached to C

0(sp3) with 1X attached to next C 0.6666 109 B-112 >B- as in boranes 1.0255

52 H-053 Ha attached to C

0(sp3) with 2X attached to next C 0.5372 110 P-115 P ylids -

53 H-054 Ha attached to C

0(sp3) with 3X attached to next C 0.6338 111 P-116 R3-P=X -0.9359

54 H-055 Ha attached to C

0(sp3) with 4X attached to next C 0.362 112 P-117 X3-P=X (phosphate) -0.1726

55 O-056 alcohol -0.3567 113 P-118 PX3 (phosphite) -0.7966

56 O-057 phenol / enol / carboxyl OH -0.0127 114 P-119 PR3 (phosphine) 0.6705

57 O-058 =O -0.0233 115 P-120 C-P(X)2=X (phosphonate) -0.4801

58 O-059 Al-O-Al -0.1541

Page 20: Estimación del LC50 para sustancias químicas de uso ...

20

Donde R representa cualquier grupo unido por un carbono, X representa cualquier átomo electronegativo (O,

N, S, P, Se, halógenos), Al y Ar representan grupos alifáticos y aromáticos respectivamente, = representa un

doble enlace, # representa un triple enlace, - - representa un enlace aromático como en el benceno o enlaces

deslocalizados como N-O, . . representa un enlace aromático simple como C-N, a representa el número formal

de oxidación, b un carbono alpha, c N-óxidos, d estructuras tipo pirrol, e estructuras tipo piridina y f estructuras

tipo piridina N-óxido [33].

A.8. Contribuciones de superficie de tipos de átomos polares

Donde (*) representa un átomo de cualquier elemento diferente al hidrógeno, - un enlace sencillo, = un enlace

doble, # un enlace triple, : un enlace aromático; un símbolo atómico en la parte inferior significa que el átomo

es parte de un sistema aromático. (b) Parte de un grupo nitro. (c) Nitrógeno medio en un grupo azida. (d)

Átomo en un anillo de tres componentes. (e) Nitrógeno en grupo isociano. (f) Piridina N-óxido [34].

No. Atom type PSA contrib. No. Atom type PSA contrib.

1 [N](-*)(-*)-* 3.24 23 [nH](:*):* 15.79

2 [N](-*)=* 12.36 24 [n+](:*)(:*):* 4.1

3 [N]#* 23.79 25 [n+](-*)(:*):* 3.88

4 [N](-*)(=*)=*  (b) 11.68 26 [nH+](:*):* 14.14

5 [N](=*)#*   (c) 13.6 27 [O](-*)-* 9.23

6 [N]1(-*)-*-*-1   (d) 3.01 28 [O]1-*-*-1   (d) 12.53

7 [NH](-*)-* 12.03 29 [O]=* 17.07

8 [NH]1-*-*-1   (d) 21.94 30 [OH]-* 20.23

9 [NH]=* 23.85 31 [O-]-* 23.06

10 [NH2]-* 26.02 32 [o](:*):* 13.14

11 [N+](-*)(-*)(-*)-* 0 33 [S](-*)-* 25.3

12 [N+](-*)(-*)=* 3.01 34 [S]=* 32.09

13 [N+](-*)#*   (e) 4.36 35 [S](-*)(-*)=* 19.21

14 [NH+](-*)(-*)-* 4.44 36 [S](-*)(-*)(=*)=* 8.38

15 [NH+](-*)=* 13.97 37 [SH]-* 38.8

16 [NH2+](-*)-* 16.61 38 [s](:*):* 28.24

17 [NH2+]=* 25.59 39 [s](=*)(:*):* 21.7

18 [NH3+]-* 27.64 40 [P](-*)(-*)-* 13.59

19 [n](:*):* 12.89 41 [P](-*)=* 34.14

20 [n](:*)(:*):* 4.41 42 [P](-*)(-*)(-*)=* 9.81

21 [n](-*)(:*):* 4.93 43 [PH](-*)(-*)=* 23.47

22 [n](=*)(:*):*    (f) 8.39