Aller au contenu

Stockage de données numériques sur ADN

Un article de Wikipédia, l'encyclopédie libre.

Le stockage de données numériques sur ADN est le processus de codage et de décodage de données binaires vers et depuis des brins d'ADN de synthèse[1],[2]. Les informations ne sont pas codées sous forme binaire avec les chiffres 0 et 1, mais en utilisant l'alphabet du génome (-G, -T, -A et C).

Bien que l'ADN possède un potentiel énorme comme support de stockage en raison de sa grande densité de stockage, son utilisation pratique est pour le moment sévèrement limitée en raison de son coût élevé et de ses vitesses de lecture et d'écriture très lentes[3].

En , des scientifiques rapportent que les 16 Go de texte de la version anglaise de Wikipédia ont été codés avec succès en ADN de synthèse (en)[4].

Lecture de l'information : le séquençage de l'ADN

[modifier | modifier le code]

Actuellement[Quand ?], la technologie de séquençage d'ADN la plus utilisée est celle développée par Illumina, impliquant l'immobilisation d'un monocaténaire d'ADN sur un support solide, l'amplification en chaîne par polymérase des séquences, et la labellisation des bases azotées individuelles avec des bases azotées complémentaires elles-mêmes labellisées par des sondes fluorescentes. Le motif de fluorescence (une couleur différente pour chacune des quatre bases azotées) peut ensuite être capturé dans une image et traité pour déterminer la séquence d'ADN[1]. Une alternative récemment[Quand ?] développée est la technologie des nanopores dans laquelle les molécules d'ADN sont passées à travers un pore d'échelle nanométrique sous le contrôle d'une enzyme à cliquet. Le passage des molécules d'ADN provoque un petit changement de courant électrique qui peut être mesuré. Le principal avantage de cette technologie est qu'elle peut être lue en temps réel[1]. Cependant, la précision de lecture de cette technologie est actuellement[Quand ?] insuffisante pour le stockage des données[5].

Ecriture de l'information : synthèse de l'ADN

[modifier | modifier le code]

La synthèse se fait par plusieurs procédés, la voie chimique étant dominante en 2020[6].

  • Synthèse chimique : dans ce procédé, qui date de 1983, les bases sont ajoutées les unes après les autres au fragment d'ADN, en utilisant des phosphoramides. Les fragments d'environ 200 nucléotides chacun sont recollés bout à bout. La société américaine Twist Biosciences pratique ce procédé.
  • Synthèse enzymatique : ce procédé, qui date de 2010, fait appel à une enzyme naturelle, la TdT. La société française DNA Script utilise cette technologie.
  • Certains procédés permettent de diminuer considérablement le temps de la synthèse et le taux d'erreur. Ainsi, la société Catalog DNA utilise une bibliothèque de fragments d'ADN appelés "composants". Evonetix contrôle par la température des micro-sites de réaction.

Stockage de l'ADN

[modifier | modifier le code]

Stockage de longue durée

[modifier | modifier le code]

Il est possible d'encapsuler l'ADN dans des nanobilles de silice. En les stockant dans des capsules en acier inoxydable, on estime pouvoir obtenir une durée de vie de 50.000 ans[6].

Stockage In vivo

[modifier | modifier le code]

Le code génétique d'organismes vivants peut potentiellement être coopté pour stocker de l'information. En outre, la biologie de synthèse peut être utilisée pour concevoir des cellules avec des « enregistreurs moléculaires » pour permettre le stockage et la récupération d'informations stockées dans le matériel génétique de la cellule[1]. CRISPR-Cas9 peut également être utilisé pour insérer des séquences d'ADN artificiel dans le génome de la cellule[1].

L'idée de stocker de l'information numérique sur de l'ADN remonte à 1959, lorsque le physicien Richard P. Feynman, dans sa conférence « There's Plenty of Room at the Bottom », décrit les perspectives d'évolution générales concernant la création d'objets artificiels similaires aux objets du domaine microscopique (y compris biologiques) et ayant des capacités similaires voire plus étendues[7]. En 1964-65, Mikhail Samoilovich Neiman (en)[8], physicien soviétique, publie 3 articles sur la microminiaturisation en électronique à l'échelle moléculaire-atomique, où il présente indépendamment des considérations générales et quelques calculs concernant la possibilité d'enregistrement, de stockage et de récupération d'informations sur molécules d'ADN et d'ARN synthétisées[9],[10],[11]. Après la publication du premier article de Neiman et après avoir reçu par l'éditeur le manuscrit de son deuxième article (le , comme indiqué dans cet article), l'entretien avec Norbert Wiener, père de la cybernétique, est publié[12]. Wiener y exprime des idées sur la miniaturisation de la mémoire informatique, proches des idées proposées par Neiman, de manière indépendante. Idées de Wiener que Neiman a mentionnées dans le troisième de ses articles.

L'une des premières utilisations du stockage de données sur ADN a lieu en 1988 par la collaboration entre l'artiste Joe Davis et des chercheurs de Harvard. L'image, enregistrée dans une séquence d'ADN d'une bactérie E. coli, est formée comme une matrice de 5 lignes par 7 colonnes qui, une fois décodée, forme l'image d'une ancienne rune germanique représentant la vie et la Terre féminine. Dans la matrice, les 1 correspondent aux pixels sombres tandis que les 0 correspondent aux pixels clairs[13].

En 2007, un dispositif utilisant des molécules d'adressage pour coder des sites de mésappariement dans un brin d'ADN est créé à l'Université de l'Arizona. Ces mésappariements peuvent ensuite être lus en effectuant une digestion par enzymes de restriction, permettant ainsi la récupération des données[14].

En 2011, George Church, Sri Kosuri et Yuan Gao menent une expérience tentant de coder un livre de 659 Ko co-écrit par Church. Pour ce faire, l'équipe de recherche fait une correspondance à deux contre un où un 0 binaire est représenté par une adénine ou une cytosine et 1 binaire était représenté par une guanine ou une thymine. Après examen, 22 erreurs sont trouvées dans l'ADN[13].

En 2012, George Church et ses collègues de l'Université Harvard codent de l'ADN avec des informations numériques comprenant une version HTML d'un livre de 53400 mots écrit par le chercheur principal, onze images au format JPEG, et un programme JavaScript. Plusieurs copies sont ajoutées pour la redondance et 5,5 pétabits peuvent être stockés dans chaque millimètre cube d'ADN[15]. Un code simple où les bits sont mappés un à un avec des bases est utilisé, ce qui a pour inconvénient de conduire à de longues exécutions de la même base, dont le séquençage est sujet aux erreurs. Ce résultat a montré qu'en plus de ses autres fonctions, l'ADN peut également être un type de support de stockage comme les disques durs et les bandes magnétiques[16].

En 2013, des chercheurs de l'Institut européen de bio-informatique (EBI) soumettent un article à peu près en même temps que le document de Church et ses collègues faisant état du stockage, de la récupération et de la reproduction de plus de cinq millions de bits de données avec une fidélité comprise entre 99,99% et 100%[17]. Les principales innovations dans ce travail de recherche ont été l'utilisation d'un mécanisme de correction d'erreurs pour garantir un taux de perte d'information extrêmement faible, ainsi que l'idée de coder les données dans une série de courts oligonucléotides se chevauchant, et identifiables grâce à un mécanisme d'indexation à partir des séquences. De plus, les séquences des brins individuels d'ADN se chevauchaient de telle sorte que chaque portion de données était répétée quatre fois pour éviter les erreurs (redondance). Deux de ces quatre brins étaient construits à l'envers, également dans le but d'éliminer les erreurs. Les coûts par mégaoctet ont été estimés à 12 400 $ pour le codage des données et à 220 $ pour la récupération. Cependant, il a été noté que la diminution exponentielle des coûts de synthèse et de séquençage d'ADN, si elle se poursuit dans le futur, devrait rendre la technologie viable pour le stockage de données à long terme d'ici 2023[16].

En 2013, un logiciel nommé « DNACloud » est développé par Manish K. Gupta et ses collègues pour coder les fichiers informatiques en ADN. Il s'agit d'une version moins gourmande en mémoire de l'algorithme proposé par Goldman et al. pour encoder (et décoder) les données en ADN (fichiers .dnac)[18],[19].

Un article sur la stabilité à long terme des données codées en ADN, rédigé par des chercheurs de l'École polytechnique fédérale de Zurich, paraît en . L'équipe ajoute de la redondance via le code de Reed-Solomon et en encapsulant l'ADN dans les sphères de verre de silice via le procédé Sol-gel[20].

En 2016, Church et Technicolor Research and Innovation publient un article dans lequel les 22 mégaoctets d'une séquence vidéo compressée dans un format MPEG sont stockés et récupérés via de l'ADN. Il est constaté que la séquence récupérée ne comportait aucune erreur[21].

En , Yaniv Erlich (en) et Dina Zielinski de l'Université Columbia et du New York Genome Center (en) publient une méthode nommée « Fontaine d'ADN » stockant des données à une densité de 215 pétaoctets par gramme d'ADN. La technique approche la capacité de canal du stockage d'ADN, atteignant 85% de la limite théorique. La méthode n'est alors pas prête pour une utilisation à grande échelle, car il en coûte 7000 $ pour synthétiser 2 mégaoctets de données, et 2000 $ pour les lire[22],[23],[24].

En , l'Université de Washington et Microsoft publient des résultats faisant démonstration du stockage et de la récupération d'environ 200 mégaoctets de données. Ces résultats proposent et évaluent également une méthode d'accès direct aux données stockées dans l'ADN[25],[26]. En , la même équipe annonce qu'elle a fait démonstration d'un système entièrement automatisé pour coder et décoder les données dans l'ADN[27].

En , un article publié par des chercheurs de l'Eurecom et de l'Imperial College London démontre la possibilité de stocker des données structurées dans de l'ADN synthétique. L'article montre comment coder des données structurées, ou plus précisément relationnelles, dans l'ADN synthétique et montre comment effectuer des opérations de traitement de données (similaires à SQL) directement sur l'ADN grâce à des processus chimiques[28],[29].

En , des scientifiques rapportent que les 16 Go de Wikipédia avaient été encodés en ADN synthétique[4].

Le premier article décrivant le stockage de données sur des séquences d'ADN natives via des entailles enzymatiques a été publié en . Dans l'article, les scientifiques font la démonstration d'une nouvelle méthode d'enregistrement d'informations dans le squelette d'ADN qui permet un accès direct par bit et un calcul en mémoire[30].

Le , Nick Goldman (en) de l'Institut européen de bio-informatique (EBI), l'un des auteurs originaux de l'article de Nature de 2013[17] annonce le Davos Bitcoin Challenge lors de la réunion annuelle du Forum économique mondial à Davos[31],[32]. Au cours de sa présentation, des tubes d'ADN sont distribués au public, chaque tube contenant la clé privée codée en ADN d'exactement un bitcoin. Le défi consiste à séquencer et décoder l'ADN, le premier à y parvenir pouvant réclamer le bitcoin. La durée du challenge est fixée à trois ans et doit se terminer si personne ne réclame le prix avant le .

En , l'Intelligence Advanced Research Projects Activity (IARPA) finance deux consortiums publics privés ayant pour objectif, en 4 ans, de pouvoir stocker 1 téraoctet de données en 24 heures pour un coût inférieur à 1 000 dollars. L'un des consortiums est mené par le Broad Institute et implique notamment la société française DNA Script[33], tandis que l'autre implique notamment l'Université de Washington et Twist Bioscience[34].

ADN des objets

[modifier | modifier le code]

Le concept d'ADN des objets a été présenté en 2019 par une équipe de chercheurs israéliens et suisses[35],[36],[37]. Il désigne le codage de données numériques en molécules d'ADN, qui sont ensuite intégrées à des objets. Contrairement à l'Internet des objets, qui est un système de dispositifs informatiques interdépendants, l'ADN des objets crée des objets qui sont des objets de stockage indépendants, complètement hors réseau.

Références

[modifier | modifier le code]
  1. a b c d et e (en) Luis Ceze, Jeff Nivala et Karin Strauss, « Molecular digital data storage using DNA », Nature Reviews Genetics, vol. 20, no 8,‎ , p. 456–466 (ISSN 1471-0064, DOI 10.1038/s41576-019-0125-3)
  2. (en) Fatima Akram, Ikram ul Haq, Haider Ali et Aiman Tahir Laghari, « Trends to store digital data in DNA: an overview », Molecular Biology Reports, vol. 45, no 5,‎ , p. 1479–1490 (ISSN 1573-4978, DOI 10.1007/s11033-018-4280-y)
  3. Darshan Panda, Kutubuddin Ali Molla, Mirza Jainul Baig et Alaka Swain, « DNA as a digital information storage device: hope or hype? », 3 Biotech, vol. 8, no 5,‎ (ISSN 2190-572X, PMID 29744271, PMCID 5935598, DOI 10.1007/s13205-018-1246-7).
  4. a et b (en) Stephen Shankland, « Startup Catalog has jammed all 16GB of Wikipedia's text onto DNA strands », sur CNET (consulté le )
  5. « Three decades of nanopore sequencing », Nature Biotechnology, vol. 34, no 5,‎ , p. 518–24 (PMID 27153285, PMCID 6733523, DOI 10.1038/nbt.3423)
  6. a et b Académie des technologies, « Archiver les mégadonnées au-delà de 2040 :la piste de l’ADN » [PDF], .
  7. Feynman, « There's Plenty of Room at the Bottom », Annual meeting of the American Physical Society, California Institute of Technology,
  8. « Mikhail Samoilovich Neiman (1905-1975) »
  9. « Some fundamental issues of microminiaturization », Radiotekhnika, no 1,‎ , p. 3–12 (in Russ.) (lire en ligne)
  10. « On the relationships between the reliability, performance and degree of microminiaturisation at the molecular-atomic level. », Radiotekhnika, no 1,‎ , p. 1–9 (in Russ.) (lire en ligne)
  11. « On the molecular memory systems and the directed mutations. », Radiotekhnika, no 6,‎ , p. 1–8 (in Russ.) (lire en ligne)
  12. « Interview: machines smarter than men? », US News & World Report, vol. 56,‎ , p. 84–86
  13. a et b « How DNA could store all the world's data », Nature, vol. 537, no 7618,‎ , p. 22–4 (PMID 27582204, DOI 10.1038/537022a, Bibcode 2016Natur.537...22E)
  14. « Biocompatible Writing of Data into DNA », Journal of Bionanoscience, vol. 1, no 1,‎ , p. 17–21 (DOI 10.1166/jbns.2007.005, arXiv 1708.08027)
  15. « Next-generation digital information storage in DNA », Science, vol. 337, no 6102,‎ , p. 1628 (PMID 22903519, DOI 10.1126/science.1226355, Bibcode 2012Sci...337.1628C, lire en ligne)
  16. a et b « Synthetic double-helix faithfully stores Shakespeare's sonnets », Nature,‎ (DOI 10.1038/nature.2013.12279)
  17. a et b « Towards practical, high-capacity, low-maintenance information storage in synthesized DNA », Nature, vol. 494, no 7435,‎ , p. 77–80 (PMID 23354052, PMCID 3672958, DOI 10.1038/nature11875, Bibcode 2013Natur.494...77G)
  18. Shalin Shah, Dixita Limbachiya et Manish K. Gupta, « DNACloud: A Potential Tool for storing Big Data on DNA », arXiv:1310.6992 [cs],‎ (lire en ligne, consulté le )
  19. On optimal family of codes for archival DNA storage, , 123–127 p. (ISBN 978-1-4673-8308-0, DOI 10.1109/IWSDA.2015.7458386, arXiv 1501.07133)
  20. « Robust chemical preservation of digital information on DNA in silica with error-correcting codes », Angewandte Chemie, vol. 54, no 8,‎ , p. 2552–5 (PMID 25650567, DOI 10.1002/anie.201411378)
  21. « Forward Error Correction for DNA Data Storage », Procedia Computer Science, vol. 80,‎ , p. 1011–1022 (DOI 10.1016/j.procs.2016.05.398)
  22. (en-US) Ed Yong, « This Speck of DNA Contains a Movie, a Computer Virus, and an Amazon Gift Card », sur The Atlantic, (consulté le )
  23. « DNA could store all of the world's data in one room », (consulté le )
  24. « DNA Fountain enables a robust and efficient storage architecture », Science, vol. 355, no 6328,‎ , p. 950–954 (PMID 28254941, DOI 10.1126/science.aaj2038, Bibcode 2017Sci...355..950E, lire en ligne)
  25. « Random access in large-scale DNA data storage », Nature Biotechnology, vol. 36, no 3,‎ , p. 242–248 (PMID 29457795, DOI 10.1038/nbt.4079)
  26. Patel, « DNA Data Storage Gets Random Access », IEEE Spectrum: Technology, Engineering, and Science News, (consulté le )
  27. (en-US) « Microsoft, UW demonstrate first fully automated DNA data storage », Innovation Stories, (consulté le )
  28. « OligoArchive: Using DNA in the DBMS storage hierarchy », Conference on Innovative Data Systems Research (CIDR),‎ (lire en ligne)
  29. (en-US) « OligoArchive Website », oligoarchive.github.io (consulté le )
  30. Tabatabaei, Wang, Athreya et Enghiad, « DNA punch cards for storing data on native DNA sequences via enzymatic nicking », Nature Communications, vol. 11, no 1,‎ , p. 1–10 (PMID 32269230, PMCID 7142088, DOI 10.1038/s41467-020-15588-z)
  31. « Future Computing: DNA Hard Drives | Nick Goldman » (consulté le )
  32. (en) « DNA storage | European Bioinformatics Institute », www.ebi.ac.uk (consulté le )
  33. « DNA Script mise sur le stockage des données dans l'ADN à dix ans », sur Les Echos, (consulté le )
  34. (en-US) « Twist Bioscience Selected as DNA Synthesis Provider for DNA Data Storage Project Under Intelligence Advanced Research Projects Activity (IARPA) Molecular Information Storage (MIST) Program », sur BioSpace (consulté le )
  35. Koch, Julian, « A DNA-of-things storage architecture to create materials with embedded memory », Nature Biotechnology,‎ (PMID 31819259, DOI 10.1038/s41587-019-0356-z)
  36. Molteni, « These Plastic Bunnies Got a DNA Upgrade. Next up, the World? », Wired,‎
  37. Hotz, « Scientists Store Data in Synthetic DNA Embedded in a Plastic Bunny », Wall Street Journal,‎