Nick Goldman ved EMBL-EBI studerer syntetisert DNA i en ampulle. (Bilde: EMBL Photolab)

Lagrer 2,2 petabyte per gram med DNA

Forskere er sikre på at DNA er framtidens løsning for langsiktig datalagring.

Forskere ved European Bioinformatics Institute (EMBL-EBI) i Hinxton, Storbritannia, har utviklet en metode for å lagre data i form av DNA. Metoden, som er beskrevet i en artikkel i Nature, skal kunne gjøre det mulig å lagre en datamengde tilsvare minst 100 millioner timer med HD-video i en kopp med DNA. Ifølge MIT Technology Review tilsvarer dette 2,2 petabyte per gram med DNA.

Det britiske instituttet er en del av European Molecular Biology Laboratory. Det er forskeren Nick Goldman som har ledet arbeidet.

Selv om lagringskapasiteten til DNA virker svært lovende, så er det stabiliteten til materialet som er det essensielle. Ifølge EMBL-EBI vil selv de beste arkiveringsmaterialene, slik som magnetbånd, degraderes innen et tiår. Dette utgjør en stadig økende utfordring, særlig for vitenskapelige miljøer, som generer massive mengder med data hvert år, inkludert DNA-sekvenser.

Mammut

– Vi vet allerede at DNA er en robust måte å lagre informasjon på, siden vi kan hente det ut av tusenvis av år gamle mammutbein og forstå noe av det, sier Goldman i en pressemelding.

– Det er også utrolig smått, kompakt og behøver ikke strøm under lagringen, så frakt og oppbevaring av det er enkelt.

Også tidligere har det blitt gjort vellykkede forsøk på å kode data i DNA, men det har ifølge forskerne ved EMBL-EBI dreid seg om «trivielle informasjonsmengder». Selv har de lagret 739 kilobyte med ordinære datafiler – blant annet noen mindre MP3-, JPEG og PDF-filer og en tekstfil som beskriver kodingen, som de så har greid å gjenskape med hundre prosent nøyaktighet.

– Teoretisk analyse indikerer at vårt DNA-basert lagringssystem kan skaleres langt utover dagens globale informasjonsmengde og tilby en realistisk teknologi for langsiktig, digital arkivering av store mengder data som sjeldent aksesseres, heter det i sammendraget til Nature-artikkelen.

Ifølge forskerne er det ganske uproblematisk å lese DNA. Å skrive det har derimot vært en stor hindring til nå.

Dette skyldes for det første at metodene som har blitt brukt til nå, bare har gjort det mulig å produsere korte strenger med DNA. For det andre er både lesing og skriving av DNA spesielt utsatt for feil nå det samme DNA-tegnet blir repetert.

– Vi visste at vi behøvde å lage en kode som bare brukte korte DNA-strenger, og at vi måtte gjøre det på en slik måte at det ville bli umulig å lage en kjøring med det samme tegnet, forteller Goldman.

Sammen med visedirektøren ved EMBL-EBI, Ewan Birney, bestemte Goldman seg for å dele opp koden i en mengde overlappende fragmenter som ble lagt i begge retninger, sammen med indekseringsinformasjon som viser hvor hvert fragment hører hjemme i den samlede koden. Dessuten lagt de et kodesystem som ikke tillater repetisjoner.

Ettall og nullene i binærkode til filene ble konvertert til det genetiske alfabetet med DNA-baser, A, T, C og G. Kodingen sikrer at basene ikke blir repetert i par som AA eller GG.

– På denne måten ville du måtte ha den samme feilen i fire ulike fragmenter for at få det hele til å feile, og det ville være svært usedvanlig, forteller Goldman.

Den nye metoden krever syntetisering av DNA fra kodet informasjon. Denne jobben ble gjort av Agilent Technologies som holder til i California.

– Vi lastet ned filene fra weben og brukte dem til å syntetisere hundre tusenvis av DNA-biter. Resultatet som ut som en liten bit med støv, forklarer Emily Leproust, en avdelingsdirektør i Agilent, i en pressemelding.

DNA-bitene ble sent med post til EMBL-EBI i Storbritannia som deretter kunne sekvensere DNA-et og dekode filene.

– Vi skapte en kode som er feiltolerant ved å bruke en molekylærform vi vet at vil bestå i 10 000 år eller lenger, under de rette forholdene. Så lenge noen vet hva koden er, vil du alltid kunne lese det av på nytt dersom du har en maskin som kan lese DNA, sier Goldman.

I tillegg til flere praktiske utfordringer som må overkommes, er kostnadene knyttet til DNA-basert datalagring altfor høye. Ifølge MIT Technology Review har Goldmans forskningsgruppe beregnet at skrivingen av en megabyte med data nå koster 12 400 dollar. Å lese dataene er langt billigere, 220 dollar per megabyte.

Men det er ventet at kostnadene vil kunne reduseres betydelig i løpet av det neste tiåret.

Til toppen