Esta es la segunda parte del post sobre codificación de información a escala atómica y molecular. En la primera parte hablábamos sobre como se codifica la información en sistema binario y como se ha conseguido batir el récord de almacenamiento de datos al almacenar un bit en un único átomo. Continuando con este tema apasionante, en la segunda parte de este post vamos a hablar de cómo se ha podido almacenar información en una molécula de ADN. Arrancamos con unos conceptos básicos.

¿Qué es el ADN y cómo puede utilizarse para almacenar información?

El ácido desoxirribonucleico o ADN es una molécula que tiene la misión de almacenar y transmitir la información la genética en los seres vivos. Por lo que ya por si mismo el ADN es un dispositivo biológico de almacenamiento de datos. Solo era cuestión de tiempo que alguien decidiera aplicar al ADN como soporte de información (datos) no necesariamente biológicos. Una molécula de ADN está compuesta de unidades más pequeñas denominadas nucleótidos. Cada nucleótido a su vez está compuesto por una azúcar sencillo (pentosa), una base nitrogenada y una unidad fosfato.

decodificación

Cada unidad  nucleótido puede tener 4 diferentes bases nitrogenadas: A, T, G o C. Por simplicidad podemos denominar a una unidad nucleótido entera con la misma letra que identifica la base nitrogenada que contiene. De esta manera las moléculas de ADN están formadas únicamente por 4 tipos de nucleótidos: A, T, G y C. Así que básicamente una molécula de ADN es una forma de código que utiliza 4 letras A, T, G y C.

En la primera parte de este post hablábamos sobre el uso del bit como unidad de información y vimos que los bits usan un código binario de ceros y unos (0,1). El ADN en este caso es la unidad de información y a diferencia del bit que usa dos números 0 y 1 , el ADN usa cuatro letras A, T, G y C. Cada bit tiene la posibilidad de tener dos valores (0 o 1) y cada nucleótido tiene la posibilidad de tener cuatro valores (A, T, G y C) por lo que cada nucleótido equivale teóricamente a 2 bits, es decir, cada nucleótido puede codificar un máximo de 2 bits. Sin embargo un nucleótido no tiene la capacidad real de almacenar 2 bits. Eso se debe a que las moléculas de ADN que contienen secuencias largas de nucleótidos repetidos como por ejemplo AAAAAAAAAAA…. o un contenido elevado de nucleótidos GC no son viables porque no son sintéticamente estables o inducen a errores de codificación. Es decir, que se estima que la capacidad real de almacenamiento de un nucleótido es aproximadamente 1.83 bits.

adn

Almacenamiento de datos en ADN.

Recientemente se ha publicado un estudio en la revista Science en el que se describe como se ha conseguido codificar y almacenar información en forma de molécula de ADN. Los científicos responsables de este estudio fueron capaces de almacenar en forma de ADN un sistema operativo, una película y un virus informático.

Y en este momento os estaréis preguntando como funciona este ingenio. Todo esto es posible gracias a una brillante combinación de biología y matemáticas. Ya hemos discutido en la primera parte de este post que cualquier tipo de información puede ser codificada en el sistema binario de ceros y unos. En este caso lo primero que se hace es tener codificados el sistema operativo, la película y el virus informático en sistema binario. Hasta aquí sin problemas. El siguiente paso sería transformar la información que tenemos en código binario al código de nucleótidos de ADN: A, T, G, C. Pero no podemos olvidar que hay secuencias que dan problemas como decíamos más arriba, secuencias con muchos nucleótidos repetidos o con mucha cantidad de nucleótidos GC no se pueden utilizar. Para resolver este problema, los autores del estudio consiguieron aplicar un algoritmo matemático, una serie de transformaciones matemáticas que permiten la codificación de ceros y unos en letras A, T, G, C evitando combinaciones de letras consecutivas repetidas y con mucha cantidad de letras GC. Una vez que ya tenemos todo codificado en la secuencia de letras A, T, G, C lo que se hace es sintetizar una molécula de ADN formada por esa secuencia de nucleótidos. De esta manera tenemos un soporte de datos físico, la molécula de ADN, a modo de disco duro o soporte de datos. Este ADN sintetizado que contiene la información del sistema operativo, la película y el virus informático puede ser transportado, como si llevaras una memoria flash, un CD o un disco duro externo. Para recuperar la información de la molécula de ADN, igual que hacemos con el código binario de ceros y unos, se aplica un proceso inverso de decodificación de datos que transforma el código de letras A,T,G, C de nuevo en un sistema operativo, una película y un virus informático.

decodificacion adn

Este avance es espectacular y se ha conseguido almacenar un 60% más de datos que en cualquier otro estudio previo. Además se ha conseguido que el proceso de codificación y decodificación ocurra sin ningún error. Según los propios autores del estudio la información almacenada en forma de ADN se pudo recuperar sin ningún error todas las veces que se intentó decodificar la información. Sin embargo como ya decíamos en la primera parte de este post, debemos ser cuidadosos a la hora de ilusionarnos con estos estudios, se tiende mucho a exagerar en la prensa. Todavía pasaran unos cuantos años antes de que esta tecnología llegue a nuestras casas o tengamos “discos duros” de ADN. Por el momento este sistema de codificación-decodificación es muy caro y recuperar la información lleva demasiado tiempo. Antes de acabar una curiosidad más, la película que se almacenó  en forma de ADN no fue una película larga en plan el señor de los anillos, sino una película corta de unos segundos llamada: Llegada de un tren a la estación de la Ciotat grabada en 1895 por los hermanos Lumiere, inventores del cinematógrafo.