Arkivgiganten Internet Archive har nå lagret over 10 petabyte med innhold fra web. Organisasjonen feiret begivenheten med brask og bram i forrige uke. (Bilde: Internet Archive)

Har lagret 10 petabyte

Utrolig milepæl for nettets største arkiv.

Internet Archive har som uttalt mål å tilby universell tilgang til all kunnskap. I forrige uke rundet de 10.000.000.000.000.000 bytes med arkivert innhold, noe som tilsvarer 10 millioner gigabyte, 10.000 terabyte eller for enkelhets skyld 10 petabyte med data.

Rettelse: Størrelsen tilsvarer selvfølgelig 9,31 millioner gigabyte, 9.095 terabytes eller 8,88 petabyte.

Den ideelle organisasjonens samling består av blant annet filmer, konsert- og radioopptak, bøker, lydbøker, musikk og nettsider. Deres største og mest kjente arkiv er Wayback Machine, hvor man kan slå opp i gamle nettsider helt tilbake til tjenestens unnfangelse i 1996.

I anledning milepælen tilbyr de nå et 80 terabyte datasett i WARC-format til bruk av forskere, hentet fra drøyt 2,27 milliarder unike nettadresser gjennom store deler av 2011.

- Vi ønsker å utforske hva andre kan lære av dette innholdet hvis vi gjør det tilgjengelig i sin helhet, forklarer organisasjonen i et blogginnlegg.

10 petabyte i Nasjonalbiblioteket

Også her hjemme i Norge har man drevet med arkivering av innhold på internett for ettertiden i lengre tid.

Nasjonalbiblioteket lagret alt under .no-domenet 1-2 ganger årlig fram til og med 2008, da det kom en innstramming etter dialog med Datatilsynet. Siden har norske myndigheters arkivering av webdata vært langt mer avgrenset.

Foreløpig må forskere søke Datatilsynet om adgang til samlingen, men Nasjonalbiblioteket forestiller seg at deler av arkivet kan gjøres mer tilgjengelig for publikum på sikt.

- Vi har per i dag høstet inn cirka 4,1 milliarder webfiler, noe som totalt utgjør rundt 156 terabyte med data, sier avdelingsdirektør Svein Arne Solbakk i Nasjonalbiblioteket til digi.no.

Dynamikken rundt hva som som ble publisert på web om terrorrettssaken etter 22. juli-angrepet, altså innhold fra nettaviser og blogger, er blant det Nasjonalbiblioteket har lagret for framtiden.

Dette er likevel bare en liten andel av hva Nasjonalbiblioteket omtaler som sitt sikringsmagasin, som akkurat nå består av litt over 3 petabyte med digital innhold.

- Siden alt lagres i tre kopier har vårt digitale sikringsmagasin i dag en kapasitet på rundt 10 petabyte, forklarer Solbakk som leder Nasjonalbibliotekets avdeling for IKT og digitalisering.

Innholdet som opptar mest lagringsplass er digitale og digitaliserte radioprogrammer, tv-programmer, digitaliserte bøker, aviser og manuskript. Ifølge Solbakk er de i ferd med å starte digitalisering av film i bevaringskvalitet i stor skala, noe som ytterligere vil generere veldig store datamengder.

Solbakk forklarer at Norge for øvrig har et utbredt samarbeid med Internet Archive, og at en av deres medarbeidere selv jobbet der i et halvår for å arbeide med datainnhøsteren som Nasjonalbiblioteket benytter seg av.

    Les også:

Til toppen