L’ADN disque dur moléculaire de l’ère numérique

Support de l’hérédité depuis l’origine du vivant, l’ADN s’impose aujourd’hui comme un candidat crédible pour l’archivage massif de données numériques. Derrière cette idée spectaculaire se cache une réalité scientifique rigoureuse bien définie et déjà expérimentée en laboratoire.

Si l’on demandait à un scénariste de science-fiction d’imaginer le support ultime de stockage, il proposerait sans doute un cristal extraterrestre ou une mémoire quantique cachée dans une galaxie lointaine. La réalité est plus sobre et plus élégante. Le support le plus dense connu pour conserver de l’information est déjà là, dans chacune de nos cellules.

Chaque jour, l’humanité produit des quantités vertigineuses de données. Les estimations évoquent 7×10²⁸ bits à l’horizon 2040, cela correspondrait à environ 1,75 milliard de milliards de films haute définition. Les supports conventionnels – disques durs, mémoires flash, bandes magnétiques – reposent sur des matériaux dont la densité et la disponibilité ne pourront pas croître indéfiniment. Par ailleurs, une part importante des données stockées est rarement consultée, tout en continuant de mobiliser de l’énergie dans les centres de données.

Dans ce contexte, l’ADN, molécule naturelle porteuse de l’information génétique, est étudié comme support alternatif de stockage. L’idée n’est pas récente : elle a été proposée dès 1959. Mais ce sont les avancées en synthèse et en séquençage qui ont rendu les démonstrations concrètes au cours des dernières décennies.

Stocker de l’information dans l’ADN ne signifie pas transformer un organisme vivant en clé USB biologique. Il s’agit d’un processus en six étapes : encodage, synthèse, préservation, récupération, séquençage et décodage. Un pipeline parfaitement défini, presque plus proche d’un protocole d’ingénierie que d’un récit à la Jurassic Park.

Traduire des bits en bases

Toute donnée numérique repose sur le binaire : 0 et 1. L’ADN, lui, fonctionne avec quatre lettres : A, T, C et G, nommées bases azotées. Le principe fondamental du stockage moléculaire consiste à établir une correspondance entre ces deux langages.

Schéma de la structure de l’ADN

Certaines démonstrations ont représenté les 0 par A ou C, et les 1 par T ou G. D’autres ont converti les données en chiffres ternaires avant de les associer aux bases. Cela peut sembler technique, mais l’enjeu est simple : éviter de produire des séquences biologiquement instables.

En effet, certaines contraintes doivent être respectées. Les séquences présentant des répétitions excessives d’une même base (homopolymères), des structures secondaires ou des contenus extrêmes en GC peuvent perturber la synthèse ou la lecture. Pour limiter ces risques, les chercheurs mobilisent des outils issus de la théorie de l’information : compression, redondance, codes correcteurs d’erreurs.

Il ne suffit donc pas de “traduire” un fichier en ADN. Il faut le faire intelligemment. Un peu comme si l’on devait écrire un roman en respectant des règles strictes de métrique sauf qu’ici, les règles sont biochimiques.

Schéma du processus de stockage dans l’ADN.

Les données numériques, qu’il s’agisse d’images, de vidéos, de textes ou de fichiers audio, sont d’abord transformées en code binaire, composé de 0 et de 1. Ce code est ensuite converti en une séquence de nucléotides correspondant aux quatre bases de l’ADN : adénine (A), guanine (G), cytosine (C) et thymine (T). Ces séquences sont alors synthétisées chimiquement pour produire des molécules d’ADN capables de conserver l’information. Lorsqu’il est nécessaire de récupérer les données initiales, l’ADN contenant l’information est isolé, séquencé afin de lire l’ordre des bases, puis reconverti en code binaire pour être interprété par un ordinateur.

Une densité qui ferait pâlir n’importe quel data center

L’ADN présente une densité exceptionnelle. La distance entre deux nucléotides est d’environ 0,34 nanomètre, ce qui correspond à une densité théorique d’environ 6 bits par nanomètre. Sa capacité potentielle est estimée à 2×10²⁴ bits par kilogramme.

À l’échelle du stockage mondial, ces chiffres sont vertigineux. Là où les technologies conventionnelles doivent mobiliser des quantités considérables de matériaux pour suivre la croissance des données, l’ADN concentre une masse d’information gigantesque dans un volume infime.

Autre atout : la stabilité. La récupération d’ADN ancien dans des contextes archéologiques a démontré sa capacité de conservation. À 25 °C, la demi-vie, temps de la disparition de la moitié de l’échantillon, d’une molécule de 500 paires de bases est estimée à environ 30 ans. Des techniques d’encapsulation, notamment dans des matrices de silice, ont été développées pour protéger l’ADN contre la chaleur et les espèces réactives de l’oxygène.

Contrairement à un serveur qui bourdonne en permanence, l’ADN correctement conservé ne consomme pas d’énergie. Il attend, silencieux. Presque stoïque.

Écrire dans la matière vivante

La synthèse correspond à l’étape d’écriture. La méthode la plus utilisée repose sur la chimie des phosphoramidites, des briques chimiques activées qui permettent d’ajouter, une par une, les bases A, T, C ou G à une chaîne d’ADN en cours de construction. Elles sont organisées en cycles successifs : déprotection, couplage, coiffage, oxydation et clivage.

Chaque cycle ajoute un nucléotide, unité de l’ADN comprenant les bases azotées. Le processus est précis, mais imparfait. Avec une efficacité de couplage de 99 %, le rendement théorique d’une séquence de 200 nucléotides chute à environ 13 %. Autrement dit, écrire long reste difficile.

Des méthodes enzymatiques utilisant notamment la TdT permettent d’ajouter rapidement des nucléotides en solution aqueuse. Toutefois, elles peuvent générer des répétitions incontrôlées, ce qui nécessite des stratégies supplémentaires de contrôle.

Malgré des plateformes capables de produire des millions de séquences en parallèle, la synthèse demeure le principal goulot d’étranglement. Elle est plus coûteuse et plus lente que le séquençage.

Si l’on devait faire une analogie geek : lire l’ADN ressemble déjà à un scan haute résolution ultra-rapide. L’écrire, en revanche, revient encore à graver un Blu-ray couche après couche.

Lire et récupérer l’information

La lecture repose sur le séquençage. Le séquençage Sanger, historiquement très précis, est limité en débit. Les technologies de nouvelle génération permettent une lecture massive et parallèle.

Le coût du séquençage d’un génome humain est passé d’environ 2,7 milliards de dollars en 2003 à environ 600 dollars en 2024. Cette chute spectaculaire illustre la dynamique technologique du domaine.

Pour récupérer une information spécifique au sein d’un ensemble de séquences, des méthodes ciblées sont utilisées. La PCR, amplification en chaîne par polymérase, connue pendant le COVID, exploite la spécificité des amorces pour enrichir la séquence d’intérêt. D’autres approches reposent sur des méthodes physiques comme le tri magnétique ou par fluorescence.

La durabilité du support dépend donc aussi de la pérennité des technologies de lecture. À la différence d’un format devenu obsolète (comme certaines disquettes ou MiniDisc™), le séquençage bénéficie d’un moteur constant : la recherche biomédicale.

L’ADN n’est pas un gadget de laboratoire. Ses propriétés physiques — densité, stabilité, absence de consommation énergétique passive — en font un candidat crédible pour l’archivage à très long terme. Les protocoles d’encodage, d’écriture et de lecture sont formalisés. Les limites sont identifiées, en particulier du côté de la synthèse.

Nous ne sauvegarderons pas nos selfies sur une double hélice demain matin. Mais pour préserver des données critiques sur des décennies, voire des siècles, la molécule du vivant offre une perspective scientifique tangible.

Et il y a quelque chose de profondément ironique, à imaginer que l’outil qui conserve depuis des milliards d’années l’histoire du vivant puisse devenir le coffre-fort de notre mémoire numérique.

Sources :

1. Shen, P. et al. DNA storage: The future direction for medical cold data storage. Synthetic and Systems Biotechnology 10, 677–695 (2025).

2. Gervasio, J. H. D. B. et al. How close are we to storing data in DNA? Trends in Biotechnology 42, 156–167 (2024).

3. Liu, D. D., Ngang, S. W. Y. & Cheow, L. F. in situ Transformation of Information Into DNA Storage With Microfluidic Very Large‐Scale Integration Platform. Small 21, 2412225 (2025).

4. Bohn, P., Weisel, M. P., Wolfs, J. & Meier, M. A. R. Molecular data storage with zero synthetic effort and simple read-out. Sci Rep 12, 13878 (2022).

5. Zhang, C. et al. Parallel molecular data storage by printing epigenetic bits on DNA. Nature 634, 824–832 (2024).

6. Jo, S. et al. Recent progress in DNA data storage based on high-throughput DNA synthesis. Biomed. Eng. Lett. 14, 993–1009 (2024).

7. Huang, X. et al. Storage‐D: A user‐friendly platform that enables practical and personalized DNA data storage. iMeta 3, e168 (2024).

8. What is DNA data storage and how does it work? Science https://www.nationalgeographic.com/science/article/dna-data-storage-biotechnology (2025).