La Ciencia también es cultura: Código para los ordenadores de ADN basado en un alfabeto genético expandido

Todos los seres vivos tenemos la información necesaria para fabricarnos en la molécula de ADN. Esta información está codificada por el orden de las cuatro letras que componen esta estructura. De la misma forma, el ADN podemos utilizarlo para codificar cualquier información: texto, imagen, música.

Muchas veces me han preguntado los amigos
– ¿Cómo se puede guardar en el ADN, con sólo cuatro letras, todo cuanto queramos, un libro entero, una imagen con miles de millones de colores o un concierto?
Mi contestación siempre es
– Con los diez dígitos que usamos para escribir los números ¿cuántos números se pueden escribir?
Enseguida descubren por ellos mismos que todo es cuestión del número de dígitos, de letras en el caso del ADN, que se usen.

Así se puede codificar toda la información para fabricar la enorme cantidad de moléculas que funcionan en cualquier animal o planta, todo es cuestión del número de letras que se usan para esta descripción.

En todos los seres vivos la codificación se lleva a cabo de tal forma que cada tres letras del ADN determina a un aminoácido. La unión ordenada de un determinado número de aminoácidos dan una proteína. Si la proteína tiene 600 aminoácidos éstos han de venir codificados en el ADN en mil ochocientas letras y el orden de esas letras es lo que determina el orden de los aminoácidos. A ese grupo de letras es a lo que se conoce como un gen. En nuestro ADN tenemos unos treinta mil genes.

De la misma manera podemos utilizar el orden de cualquier número de las cuatro letras del ADN para guardar la información de textos, imágenes y sonidos, todo es cuestión de decidir previamente qué grupo ordenado de letras será la A, la a, el 1, el símbolo +, el espacio, el retorno de carro, y así hasta los 256 símbolos necesarios.

¿Por qué 256 símbolos? Porque los ordenadores funcionan con 0 y 1 y los que llamamos personales funcionan asignando a cada letra, número o símbolo, un código formado por ocho dígitos binarios para obtener una panoplia de 2x2x2x... = 2⁸ = 256 símbolos. A cada 0 y 1 se le denomina dígito binario o bit (binary digit) y a cada grupo de 8 bits se le llama un Byte.

De la misma forma podemos asignarle a cada uno de los 256 símbolos un determinado número de letras del ADN. Con las cuatro letras A, T, G y C podemos asignarle grupos de cuatro a cada símbolo, ya que 4x4x4x4 = 4⁴ = 256 (descrito en la entrada de este blog "Código para leer y escribir con ADN") (1).

El uso de ADN como futuro almacén de la memoria de los ordenadores moleculares tiene algunas ventajas, como su gran estabilidad y, sobre todo, su pequeño tamaño, pero también tiene inconvenientes. El principal de los inconvenientes viene del temor, expresado por el Departamento de Salud de los EEUU, de que esta información pueda ser utilizada para codificar un virus humano o una toxina, o que simplemente contenga una secuencia que pueda infectar algún sistema vivo. Para evitar esto pone un límite de 199 letras para toda molécula sintética de ADN (2).

Este inconveniente queda eliminado en mi última propuesta de cómo utilizar el ADN en la memoria de los ordenadores, publicada en este mismo mes de diciembre de 2014 (3). En dicho artículo propongo la utilización del ADN con un alfabeto expandido como explico a continuación.

Desde hace pocos años se está dando un elevado interés en algunos departamentos e instituciones de Química, encabezado fundamentalmente por Floyd E. Romesberg, del Scripps Research Inst. en La Jolla (California), por la sustitución de las moléculas biológicas por moléculas similares de origen sintético (4). El principal interés en la actualidad es la obtención de un ADN totalmente sintético con moléculas similares, pero no iguales, a las naturales. Es a lo que se empieza a denominar el "alfabeto genético expandido" (5).

Este alfabeto consiste en la sustitución de las bases –letras– naturales por moléculas diferentes aunque parecidas en sus tres dimensiones. El éxito de estos trabajos ha sido haber introducido algunas de estas nuevas letras en una molécula de ADN biológico. Este ADN semisintético es capaz de ser replicado tanto in vitro como in vivo al introducirlo, junto con los precursores de estas nuevas moléculas, en una célula bacteriana donde permaneció estable durante muchas generaciones (5).

Dado que las moléculas de estas nuevas letras del ADN no existen en el mundo biológico, no las pueden sintetizar ningún ser vivo. Por tanto, estos ADN semisintéticos sólo se podrán duplicar si se les introducen en las células las nuevas moléculas sintéticas. En caso contrario dejarán de reproducirse y se perderán. Luego parece lógico pensar que si para la memoria de los ordenadores moleculares se usasen moléculas semisintéticas de ADN, éstas no podrían infectar a ningún ser vivo y quedarían, como consecuencia, excluidas de las normas aprobadas por el NIH pudiendo ser sintetizadas con cualquier longitud.

Mi propuesta en el mencionado artículo es utilizar un ADN compuesto de ocho letras, las cuatro naturales y otras cuatro sintéticas. El uso de ocho letras añade, además, el acortamiento de la longitud de estas moléculas ya que en lugar de las cuatro letras por símbolo propuesto en el anterior artículo, ahora se requerirían sólo tres letras para codificar cada símbolo (3).

Una propiedad añadida de esta nueva codificación se puede deducir del siguiente cálculo. Ocho letras distintas agrupadas de tres en tres dan un total de 8³ = 512 grupos. Dado que sólo necesitamos 256 códigos, sobran otros 256 grupos que se pueden usar para añadir redundancia a los símbolos más usados: letras y números. Si cada letra o número puede ser codificado por cuatro códigos distintos, se puede deducir que hará disminuir la frecuencia de mutación o errores causados por cambios aleatorios de una letra por otra.

Por tanto, esta nueva codificación mejora a todas las anteriores propuestas por su menor frecuencia de errores, menor tamaño para igual información, imposibilidad de contaminar a ningún ser vivo, posibilidad de sintetizar moléculas de ADN de cualquier longitud y, finalmente, en algún futuro, y dada la gran estabilidad de esta molécula, la posibilidad de ser evidente para cualquier ser inteligente, terrestre o no terrestre, del futuro, la implicación de contener una información codificada diseñada artificialmente.

Referencias

1. http://alfoogle.blogspot.com.es/2013/10/codigo-para-leer-y-escribir-con-adn_29.html

2. Sebelius, K. (2010) Screening Framework Guidance for Providers of Synthetic Double-Stranded DNA. Federal Register 75(197): 62820-62832. FR Doc No: 2010-25728

3. Jiménez-Sánchez, A. (2014) DNA Computer Code Based On Expanded Genetic Alphabet. Eur J Computer Sci Info Tech 2(4): 8-20

4. Malyshev, D. A., Dhami, K., Quacha, H. T., Lavergne, T., Ordoukhanianb, P., Torkamanic, A. and Romesberg, F. E. (2012) Efficient and sequence-independent replication of DNA containing a third base pair establishes a functional six-letter genetic alphabet. Proc Nat Acad Sci USA 109: 12005-12010.

5. Malyshev, D. A., Dhami, K., Lavergne, T., Chen, T., Dai, N., Foster, J. M., Corrêa, I. R. and Romesberg, F. E. (2014) A semi-synthetic organism with an expanded genetic alphabet. Nature. doi: 10.1038/nature13314.

La Ciencia también es cultura

Código para los ordenadores de ADN basado en un alfabeto genético expandido

No hay comentarios:

Publicar un comentario