Escribir en Adn

Código para leer y escribir con ADN

El primer artículo del primer número de la revista International Invention Journal of Biochemistry and Bioinformatics es un artículo del que soy el autor en el que propongo un método para la codificación de los futuros bio-ordenadores en los que toda la información estará guardada en moléculas de ADN.

Los ordenadores están basados, para su funcionamiento y almacenaje de la información, en el sistema binario, es decir, convirtiendo todo lo que introducimos en ceros y unos. La cantidad de información de los elementos de un sistema es, según Shannon, -log2p. Por tanto, el sistema binario tiene 1 bit de información en cada elemento de este código. Como el teclado de un ordenador tiene 256 símbolos, para obtener el código de 256 cosas hacen falta 8 dígitos binarios, ya que para obtener un código para esos elementos hay que multiplicar 2x2 ocho veces. La letra G, por ejemplo, tiene como código: 01000111. A este grupo de 8 bits se le denomina Byte (leído bait) y es lo que usamos cuando decimos que un documento ocupa 80 KB, que quiere decir que tenemos en él 80.000 Bytes que es la suma de cada letra, símbolo, número, espacio y demás cosas que hayamos introducido para escribir nuestro documento, como son el tipo y tamaño de letra, los espacios entre líneas, etc.

El ADN está formado por cuatro letras, ATCG, y la frecuencia de cada letra puede ser 1/4 por lo que la información de cada letra será, usando la anterior fórmula, de 2 bits. Es decir que la misma cantidad de información que hay en un Byte formado por 8 bits se puede conseguir con un Byte formado por 4 letras del ADN. Como ahora el sistema estaría formado por 4 elementos, en lugar de binario se denomina tetranario. Por este motivo denomino a los bits como tets y a los Bytes como tytes (leído taits).

Para obtener el código que le correspondería a cada uno de los 256 símbolos de un ordenador lo único que hay que hacer es convertir el número binario del Byte que corresponde a cada símbolo del teclado, escrito con 8 bits, en su equivalente de 4 tets en el sistema tetranario. De acuerdo con esta conversión, el binario que corresponde a la letra G se convierte en el tetranario 1013.

Pincha la tabla para verla

A continuación sólo queda asignarle una letra a cada elemento del código tetranario. Si hacemos 0 = A salen seis posibilidades: ATGC, ATCG, AGTC, AGCT, ACTG, ACGT. Lo mismo con las tres restantes letras, por lo que salen 24 formas diferentes de asignarlas. Analicé estas 24 posibilidades por el número de símbolos que seguidos en una escritura darían lugar a repeticiones de una misma letra del código. La repetición de letras en una molécula de ADN tiene tendencia a causar errores en la escritura o lectura del ADN porque a las ADN polimerasas, que son las enzimas encargadas para ello, les pasa lo mismo que a los humanos, cuando leemos número largo se nos hace muy difícil leer una secuencia con una cifra repetida muchas veces. Así, el número siguiente 560132340620800000000002365269 lo leemos muy fácilmente hasta que llegamos a la ristra de ceros donde se nos hace difícil determinar cuántos hay y casi seguro que tenemos que pasar el dedo de uno en uno para contarlos sin equivocarnos. Deslizamientos en las repeticiones, lo que en inglés se llama "slippage", es lo que le ocurre también a las enzimas que leen y escriben las secuencias del ADN, causando errores o mutaciones. La mejor manera de evitar que ocurra esto es no repitiendo muchas veces seguidas ninguna letra. Esto se puede conseguir asignando A al 0, T al 1, C al 2 y G al 3.

Este sistema de codificación de los bio-ordenadores tiene las siguientes propiedades:

1. Es uniforme, ya que todos los símbolos están codificados por 4 letras. Esto es una novedad ya que los códigos propuestos hasta ahora, hechos por informáticos, están formados con un número variable de letras para conseguir minimizar el tamaño de los documentos. Para un biólogo parece más lógico, ya que la evolución lo ha hecho de la misma forma, hacer un código con un número constante de letras. Llevado a la práctica, el sistema que propongo produce documentos con un menor número de letras que las otras propuestas.

Esta uniformidad permite, además, generar programas informáticos mucho más simples para traducir una secuencia codificada en tetranario a sus correspondientes significados, como letras, números, espacios, colores, etc.

2. Es consistente, ya que tiene una relación biunívoca entre símbolo y tyte o tetraplete, lo que no ocurre con algunos de los previamente propuestos.

3. Es homogéneo dado que todas las letras empiezan por T, las mayúsculas por TA o TT y las minúsculas por TG o TC, todos los números por AG y el espacio por AC. Esta propiedad permitirá de forma muy fácil el reconocimiento de errores en la escritura/lectura.

4. Es intuitivo ya que la propiedad anterior le hace que sea muy fácil determinar la fase de lectura, es decir en qué letra debe comenzar la lectura de 4 en 4 letras, lo que beneficiará la escritura de los programas que traduzcan el código de ADN al código del idioma empleado.

5. Disminuye la posibilidad de errores respecto de cualquiera de los códigos propuestos ya que

- utiliza un número menor de letras para cada símbolo.

- en todo documento de texto, la primera letra de cada código viene predeterminada por lo indicado en el punto 3

- está optimizado para que no se den repeticiones de una letra.

Esta codificación se aplica de la misma forma a cualquier otra función de un ordenador. Por ejemplo, las imágenes grabadas en formatos como BMP, PNG o JPEG, que soportan colores de 24 bits por píxel. El color de un píxel viene determinado por tres colores: rojo, verde y azul (RGB en inglés) y cada color está codificado por dos dígitos hexadecimales u ocho bits. Con el código propuesto, cada píxel estará determinado por 12 tets, 4 tets por cada color RGB, que producen los mismos 16,7 millones de colores que la codificación binaria (puedes convertir los códigos entre cualquiera de los sistemas binario, tetranario, decimal o hexadecimal bajándote esta página excel).

Además de los beneficios que se obtienen de sus propiedades, este código permitirá almacenar una memoria de 7,3x1018 Bytes o 7,3 Exabytes en sólo 1 mg de ADN de cadena doble (que es más estable que en cadena sencilla). Una comparación más cercana a nuestros usos diarios sería el cálculo de la memoria de un CD de 550 MB. Esta memoria está grabada en 5 Km de pista de un CD

normal. En esa misma longitud cabrían 3,6x106 MB, es decir que la información de un CD de ADN equivaldría a la de 6.545 CD! Un incremento de capacidad interesante, no?

Escribir con ADN

En los últimos meses han aparecido dos informaciones en la prensa que, aunque a priori podrían parecer distantes, están muy relacionadas. Una está relacionada con los ordenadores: “Microbios que empaquetan 200 GB. Investigadores chinos logran que las bacterias almacenen y descifren los datos”. La segunda está relacionada con la seguridad: “Atención, tienda protegida por ADN. Un sistema antirrobo innovador utiliza cadenas genéticas para identificar las propiedades y marcar a los ladrones”. La relación entre ambas noticias está en que ambas usan el lenguaje del ADN.

¿Cómo un microbio puede almacenar cualquier información?, ¿cómo podemos usar el ADN para marcar algo o a alguien?, se contestan de la misma manera: usando el lenguaje que usa el ADN para llevar la información hereditaria de un organismo, no para producir células y órganos sino para almacenar información a base de letras y números. ¿Cómo? Fácil si entendemos cómo es el ADN y cómo podemos usarlo.

Desde mediados del pasado siglo sabemos que toda la información hereditaria que se transmite de padres a hijos, humanos, ratones, gusanos, bacterias, cebollas o cualquier otro ser vivo, se encuentra en las moléculas de ADN que se transmiten por los gametos (óvulos las hembras, espermatozoides los machos).

Todas las moléculas de ADN son iguales en su estructura. Básicamente se trata de dos cadenas que se entrelazan haciendo una espiral y cada cadena lleva repetidas millones o miles de millones de veces cuatro moléculas que se conocen por la inicial de su nombre químico: A, T, G y C.

¿Dónde está la información que hace que unas moléculas hagan un perro y otras una mosca? Esta información está codificada en el orden en que se encuentran estas cuatro letras. La codificación de la vida estriba en que la secuencia de letras se leen de tres en tres y cada trio determina a un aminoácido. Por tanto, en el orden en que se encuentren los trios de letras, o tripletes, será el orden en que se unan los aminoácidos para dar las proteínas con las que estamos hechos los seres vivos.

¿Cómo convertir este lenguaje en las letras, números y símbolos que usamos al escribir? Para esto podemos pensar en una similitud con el lenguaje de los ordenadores.

Un ordenador funciona sólo con 0 y 1. Como para escribir todos los caracteres y símbolos necesitamos 27 letras más 10 números más un centenar largo de símbolos, los informáticos decidieron que usando los 0 y 1 de ocho en ocho se pueden obtener 28 = 256 caracteres diferentes, lo que es más que suficiente. Cada uno de estos 0 y 1 se les denomina un “bit” y al grupo de ocho bits se llama “byte”. Cuando decimos que nuestro ordenador tiene una memoria de 100 MB queremos decir que puede almacenar cien millones de bytes o símbolos.

Con el ADN podemos pensar de la misma forma, pero en lugar de dos bits –0 y 1– usa cuatro bits –A, T, G y C– por lo que los mismos 256 caracteres se pueden obtener haciendo grupos de cuatro, ya que

44 = 256. Así como en informática podemos asociar el byte 01000001 a la letra A y 00100101 al símbolo (, en bioinformática podríamos asociar esta letra al byte GACC y el paréntesis a TGCA.

Ya tenemos la codificación o el diccionario para conocer qué byte le corresponde a qué carácter o símbolo. Nos queda cómo materializarlo, cómo grabar la información que queramos en el ADN, por ejemplo este artículo.

Para ello haríamos uso de unas máquinas, comercializadas desde hace unos veinte o treinta años, que sintetizan fragmentos de ADN con el orden, o secuencia, de letras que queramos. Actualmente las longitudes más largas que se pueden sintetizar en estos aparatos oscilan entre 150 y 200 letras, pero posteriormente las podríamos unir para dar moléculas de ADN de longitudes mucho mayores.

Ahora podemos entender las dos noticias con que iniciaba este artículo.

La molécula de ADN que hemos sintetizado con la información deseada la podemos introducir en una bacteria. ¿Por qué en una bacteria? Por varias razones. Una fundamental es que las bacterias son muy pequeñas –3 µm de largo por 0,5 µm de ancho– (1 mm equivale a mil µm o micrómetro) y su ADN tiene 4,6 millones de letras que sería 1 MB en el lenguaje bioinformático que acabo de contarles (¿se imaginan tener 1 MB en algo mil veces más pequeño que un milímetro?). Es importante, también, que las bacterias son muy económicas de cultivar, algunas se pueden cultivar sólo con agua, un par de sales y glucosa. No menos importante es que en un cultivo de un centímetro cúbico (menos que un dedal de coser) podemos tener hasta mil millones de bacterias y si lo desecamos podemos tener estas bacterias en medio centímetro cúbico (una bacteria desecada puede recuperarse viva muchos decenios después). Ya conocen ustedes que en el mundo de los ordenadores cada vez hay que introducir más memoria en menos volumen.

Si consiguiéramos las mencionadas mil millones de bacterias (nada más fácil) y cada una con una información equivalente a su propio ADN (un poco más complicado, pero no mucho) y cada una con una información específica distinta a las demás (casi imposible), podríamos tener teóricamente una memoria de 1 PB, es decir un millón de gigabytes. Después habría que leer esa información, pero eso es ya otra historia.

¿Ciencia ficción? Por ahora sí, pero en unos …

Un uso del ADN como portador de la información que queramos introducirle está siendo ya aplicado con éxito como sistema de marcaje de objetos o personas con una finalidad antirrobo. En varios paises se ha implantado ya la tecnología de fabricar secuencias de ADN y pegar estas moléculas a objetos de alto valor como sistema de marcaje, invisible al ojo humano pero detectable por métodos moleculares sencillos. Estas moléculas no tienen que ser muy largas, con 10 letras se pueden fabricar 410 secuencias diferentes que significa más de un millón de secuencias listas para marcar otros tantos objetos. Junto con el marcaje de los objetos de la tienda, el contrato incluye el uso de una secuencia, específica de cada tienda, para marcar a las personas que entran en estos locales mediante unos microvaporizadores invisibles que llevan la secuencia de ADN especial. Este ADN quedará unido a la piel, pelos y ropa de los clientes de forma temporal (creo que en pocas semanas

desaparece) y permite, si es necesario, comprobar si una persona bajo sospecha estuvo o no en un local determinado.

El futuro de estas tecnologías depende de nuestra imaginación; la Ciencia, como la imaginación humana, no tiene límites.

- Código para los ordenadores de ADN basado en un alfabeto genético expandido

Todos los seres vivos tenemos la información necesaria para fabricarnos en la molécula de ADN. Esta información está codificada por el orden de las cuatro letras que componen esta estructura. De la misma forma, el ADN podemos utilizarlo para codificar cualquier información: texto, imagen, música.

Muchas veces me han preguntado los amigos

– ¿Cómo se puede guardar en el ADN, con sólo cuatro letras, todo cuanto queramos, un libro entero, una imagen con miles de millones de colores o un concierto?

Mi contestación siempre es

– Con los diez dígitos que usamos para escribir los números ¿cuántos números se pueden escribir?

Enseguida descubren por ellos mismos que todo es cuestión del número de dígitos, de letras en el caso del ADN, que se usen.

Así se puede codificar toda la información para fabricar la enorme cantidad de moléculas que funcionan en cualquier animal o planta, todo es cuestión del número de letras que se usan para esta descripción.

En todos los seres vivos la codificación se lleva a cabo de tal forma que cada tres letras del ADN determina a un aminoácido. La unión ordenada de un determinado número de aminoácidos dan una proteína. Si la proteína tiene 600 aminoácidos éstos han de venir codificados en el ADN en mil ochocientas letras y el orden de esas letras es lo que determina el orden de los aminoácidos. A ese grupo de letras es a lo que se conoce como un gen. En nuestro ADN tenemos unos treinta mil genes.

De la misma manera podemos utilizar el orden de cualquier número de las cuatro letras del ADN para guardar la información de textos, imágenes y sonidos, todo es cuestión de decidir previamente qué

grupo ordenado de letras será la A, la a, el 1, el símbolo +, el espacio, el retorno de carro, y así hasta los 256 símbolos necesarios.

¿Por qué 256 símbolos? Porque los ordenadores funcionan con 0 y 1 y los que llamamos personales funcionan asignando a cada letra, número o símbolo, un código formado por ocho dígitos binarios para obtener una panoplia de 2x2x2x... = 28 = 256 símbolos. A cada 0 y 1 se le denomina dígito binario o bit (binary digit) y a cada grupo de 8 bits se le llama un Byte.

De la misma forma podemos asignarle a cada uno de los 256 símbolos un determinado número de letras del ADN. Con las cuatro letras A, T, G y C podemos asignarle grupos de cuatro a cada símbolo, ya que 4x4x4x4 = 44 = 256 (descrito en la entrada de este blog "Código para leer y escribir con ADN") (1).

El uso de ADN como futuro almacén de la memoria de los ordenadores moleculares tiene algunas ventajas, como su gran estabilidad y, sobre todo, su pequeño tamaño, pero también tiene inconvenientes. El principal de los inconvenientes viene del temor, expresado por el Departamento de Salud de los EEUU, de que esta información pueda ser utilizada para codificar un virus humano o una toxina, o que simplemente contenga una secuencia que pueda infectar algún sistema vivo. Para evitar esto pone un límite de 199 letras para toda molécula sintética de ADN (2).

Este inconveniente queda eliminado en mi última propuesta de cómo utilizar el ADN en la memoria de los ordenadores, publicada en este mismo mes de diciembre de 2014 (3). En dicho artículo propongo la utilización del ADN con un alfabeto expandido como explico a continuación.

Desde hace pocos años se está dando un elevado interés en algunos departamentos e instituciones de Química, encabezado fundamentalmente por Floyd E. Romesberg, del Scripps Research Inst. en La Jolla (California), por la sustitución de las moléculas biológicas por moléculas similares de origen sintético (4). El principal interés en la actualidad es la obtención de un ADN totalmente sintético con moléculas similares, pero no iguales, a las naturales. Es a lo que se empieza a denominar el "alfabeto genético expandido" (5).

Este alfabeto consiste en la sustitución de las bases –letras– naturales por moléculas diferentes aunque parecidas en sus tres dimensiones. El éxito de estos trabajos ha sido haber introducido algunas de estas nuevas letras en una molécula de ADN biológico. Este ADN semisintético es capaz de ser replicado tanto in vitro como in vivo al introducirlo, junto con los precursores de estas nuevas moléculas, en una célula bacteriana donde permaneció estable durante muchas generaciones (5).

Dado que las moléculas de estas nuevas letras del ADN no existen en el mundo biológico, no las pueden sintetizar ningún ser vivo. Por tanto, estos ADN semisintéticos sólo se podrán duplicar si se les introducen en las células las nuevas moléculas sintéticas. En caso contrario dejarán de reproducirse y se perderán. Luego parece lógico pensar que si para la memoria de los ordenadores moleculares se usasen moléculas semisintéticas de ADN, éstas no podrían infectar a ningún ser vivo y quedarían, como consecuencia, excluidas de las normas aprobadas por el NIH pudiendo ser sintetizadas con cualquier longitud.

Mi propuesta en el mencionado artículo es utilizar un ADN compuesto de ocho letras, las cuatro naturales y otras cuatro sintéticas. El uso de ocho letras añade, además, el acortamiento de la longitud de estas moléculas ya que en lugar de las cuatro letras por símbolo propuesto en el anterior artículo, ahora se requerirían sólo tres letras para codificar cada símbolo (3).

Una propiedad añadida de esta nueva codificación se puede deducir del siguiente cálculo. Ocho letras distintas agrupadas de tres en tres dan un total de 83 = 512 grupos. Dado que sólo necesitamos 256 códigos, sobran otros 256 grupos que se pueden usar para añadir redundancia a los símbolos más usados: letras y números. Si cada letra o número puede ser codificado por cuatro códigos distintos, se puede deducir que hará disminuir la frecuencia de mutación o errores causados por cambios aleatorios de una letra por otra.

Por tanto, esta nueva codificación mejora a todas las anteriores propuestas por su menor frecuencia de errores, menor tamaño para igual información, imposibilidad de contaminar a ningún ser vivo, posibilidad de sintetizar moléculas de ADN de cualquier longitud y, finalmente, en algún futuro, y dada la gran estabilidad de esta molécula, la posibilidad de ser evidente para cualquier ser inteligente, terrestre o no terrestre, del futuro, la implicación de contener una información codificada diseñada artificialmente.

Referencias

1. http://alfoogle.blogspot.com.es/2013/10/codigo-para-leer-y-escribir-con-adn_29.html

2. Sebelius, K. (2010) Screening Framework Guidance for Providers of Synthetic Double-Stranded DNA. Federal Register 75(197): 62820-62832. FR Doc No: 2010-25728

3. Jiménez-Sánchez, A. (2014) DNA Computer Code Based On Expanded Genetic Alphabet. Eur J Computer Sci Info Tech 2(4): 8-20

4. Malyshev, D. A., Dhami, K., Quacha, H. T., Lavergne, T., Ordoukhanianb, P., Torkamanic, A. and Romesberg, F. E. (2012) Efficient and sequence-independent replication of DNA containing a third base pair establishes a functional six-letter genetic alphabet. Proc Nat Acad Sci USA 109: 12005-12010.

5. Malyshev, D. A., Dhami, K., Lavergne, T., Chen, T., Dai, N., Foster, J. M., Corrêa, I. R. and Romesberg, F. E. (2014) A semi-synthetic organism with an expanded genetic alphabet. Nature. doi: 10.1038/nature13314.

Las biocomputadoras más cercanas

Detrás de toda gran revolución tecnológica siempre hay un desconocido científico que dedicó buena parte de su vida a una investigación básica –única y verdadera investigación– con la que creó los conocimientos imprescindibles y las bases necesarias para el desarrollo tecnológico posterior. Los trabajos publicados por George Boole en el año 1854 y siguientes sobre las matemáticas de la lógica le permitieron desarrollar un sistema de reglas para expresar problemas lógicos y filosóficos cuyos argumentos admitan dos estados (verdadero o falso) por procedimientos matemáticos. Hoy se le considera el padre de las operaciones lógicas que se aplican en los circuitos integrados de los ordenadores digitales actuales y en las futuras computación cuántica y biocomputación.

El álgebra booleana es un sistema matemático lógico basado en los valores cero y uno (falso y verdadero). El paso de esta idea básica a la electrónica digital se realiza a través de una puerta lógica que es un dispositivo electrónico que en la lógica de la conmutación es la expresión física de un operador booleano. Una puerta lógica consiste, por tanto, en una red de circuitos de conmutación integrados en un chip que cumple alguna de las condiciones booleanas. Estas puertas son esencialmente: AND, NOT, OR, NAND y NOR.

Una predicción formulada por Gordon Moore en 1965, conocida como la ley de Moore, dice que la potencia de los ordenadores, su capacidad de memoria y el número de chips se duplica cada 18 meses mientras que su tamaño se hace la mitad. Sin embargo, los chips no se pueden hacer infinitamente pequeños, hay un límite en el cual dejan de funcionar correctamente. En consecuencia, la computación digital tradicional no tardará en llegar a su límite. Surge entonces la necesidad de descubrir nuevas tecnologías y ahí entran en escena la computación cuántica y la biocomputación.

En una entrada anterior de este blog (Escribir con ADN, en enero-2011) ya he mencionado la posibilidad del uso del ADN como portador de información. El ADN contiene información en el orden o secuencia de sus cuatro letras. Ahí está toda la información necesaria para determinar y dirigir el desarrollo de todos los seres vivos. Pero esa información también la podremos utilizar como sistema de almacenamiento o memoria de las posibles biocomputadoras.

Para poder hablar de biocomputadoras deberíamos, además, disponer de circuitos basados en sistemas biológicos que llevasen a cabo las funciones booleanas. Es decir, deberemos crear puertas lógicas biológicas. En esta dirección se han hecho algunos recientes avances entre los que destaco un interesante artículo publicado por un grupo londinense en la revista Nature Communications.

Como se indica en la mencionada publicación, se pueden crear puertas lógicas AND, NOT y NAND mediante la construcción de genes regulados de forma encadenada.

Supongamos un gen bacteriano cuya actividad podamos inducir mediante la adición al medio donde crece la bacteria de una sustancia activadora, este es el caso del operón lac. Un gen regulador, lacI, codifica una proteína represora que impide, de forma habitual, la expresión de un segundo gen, lacZ. Este represor puede ser inactivado por un producto externo que añadamos al medio de cultivo, por ejemplo IPTG, que determinará la actividad del segundo gen que será la síntesis de una proteína, en el ejemplo del operón lac será la ß-galactosidasa. En este operón podemos sustituir el segundo gen por uno que codifique una proteína fácilmente analizable, por ejemplo la proteína GFP que da una fluorescencia verde fácilmente visible y cuantificable. A este gen y su producto cuya actividad nos va a delatar la actividad de los genes implicados, lo denominamos reportero. Tendríamos así un sistema sencillo de obtención de una respuesta, la fluorescencia, ante la presencia de un estímulo, IPTG.

Podemos también construir un plásmido con dos operones, 1 y 2. En 1, el represor R1, inactivable por el

Escribir en Adn

Documents

Transcript of Escribir en Adn