Ny lagringsteknikk kan spare mye

Nå er deduplisering, en teknikk som kan krympe lagringsbehovet enormt, kommet langt nok til å tas i bruk, mener Gartner.

«Deduplisering» er i ferd med å bli et hett tema innen datalagring. Begrepet viser til løsninger som søker å redusere størrelsen på lagre for sikkerhetskopier og katastrofeberedskap på en mer effektiv måte enn tradisjonell komprimering og inkrementell backup.

Det kommersielle potensialet for systemer med deduplisering av data ble tydelig i annet halvår i fjor.

I november brukte EMC 165 millioner dollar på å kjøpe en av de mest framgangsrike pionerene, Avamar. Dette oppkjøpet kom tre måneder etter Quantums overtakelse av Avamar-konkurrenten ADIC for 770 millioner dollar.

Data-deduplisering har også vært implementert av Microsoft siden mai i fjor, i egenskapen «Single Instance Storage» til Windows Storage Server 2003 R2, etter langvarig og vellykket utprøving internt i selskapet. Denne programvaren inngår i løsninger fra flere leverandører.

Ideen med deduplisering er å sørge for at data bare lagres én gang og på ett sted. Det kan ordnes på filnivå, eller på datablokknivå.

Anvendt på filnivå innebærer den enkleste formen for data-deduplisering at identiske filer spredd rundt omkring bare lagres ett sted, og at deres opptreden andre steder begrenses til pekere til det ene faktiske lagringsstedet. Dette foregår uten at sluttbrukeren merker noe. Dette er prinsippet for Microsoft Single Instance Storage (SIS). Det innebærer at individuelle brukere kan tro at de har hver sin kopi av et gitt dokument i sine private diskområder, selv om det fysiske systemet bare lagrer én kopi.

Fordelen ved dette åpenbar: Hvis 40 mottakere får et dokument som vedlegg til en intern e-post, sørger SIS for at dokumentet bare lagres én gang, selv om alle 40 mottakere tar vare på sin kopi. Microsoft forteller at de erfarer opptil 40 prosent reduksjon i lagringsbehovet ved implementasjon av SIS. Mindre belastning på cache innebærer også bedre ytelse på serverne.

En mer avansert implementering av data-deduplisering tar seg også av endringer i et dokument.

Små endringer fører ikke til at hele dokumentet lagres i en ny versjon. I stedet lagres endringene, med pekere til det opprinnelige dokumentet. På den måten hindrer man at tjue medarbeideres personlige notater til en presentasjon fører til at presentasjonen lagres tjue ganger, samtidig som hver medarbeider opplever å ha sin personlige kopi på sitt personlige diskområde.

Denne formen for data-deduplisering har vist seg å være svært effektiv: I ekstreme tilfeller har bedrifter erfart at den dedupliserte sikkerhetskopien tok bare 3 til 5 prosent av plassen til den opprinnelige.

Data-deduplisering kan også implementeres på datablokknivå. Algoritmen leter seg fram til hyppig forekommende bitmønstre. Aktuelle bitmønstre lagres én gang, og de ulike forekomstene nøyer seg med å peke til dette stedet. Små variasjoner til disse bitmønstrene kan lagres for seg, det vil si som en endring med en peker til bitmønsteret den er en endring til. Vellykkede implementeringer kan, igjen i ekstreme tilfeller, vise til enda sterkere komprimering enn deduplisering på filnivå.

Innen e-postsystemer kan deduplisering innebære at ikke bære filvedlegg, men også meldingene, bare lagres én gang, uansett hvor mange mottakere meldingen har, eller hvor ofte den enkelte kopierer den til egne mapper. Dette kan skje på både klient- og serversiden, og det finnes mange løsninger å velge mellom for det mest populære e-postsystemene.

Ekstrem deduplisering er blitt en konkurransefaktor innen backupsystemer kjent som virtuelle tape-backup («virtual tape library» eller VTL), altså diskbaserte systemer som det øvrige nettverket oppfatter som en tape-backup.

I forrige uke publiserte analyseselskapet Gartner en oversikt over VTL-produkter for åpne systemer: Virtual Tape Libraries for Open Systems Overview. Oversikten konkluderer med at VTL-er tilbyr fordeler i både ytelse og pålitelighet i forhold til tape, og at de er i ferd med å utvikle seg til plattformer for avanserte tjenester som deduplisering, kryptering og replikering. Det anbefales å vurdere VTL som middel til bedre ytelse og pålitelighet i både sikkerhetskopiering og gjenoppretting av data. Der det er et absolutt behov for kopiering til tape, anbefales VTL som en slags cache foran tape i backup-kjeden.

Om deduplisering skriver Gartner:

– Deduplisering bruker komprimerende algoritmer slik at man kan lagre betydelig større datamengder enn det ellers ville vært plass til rent fysisk. Leverandører påstår at deduplisering kan redusere behovet for fysisk lagring med alt fra 50 til 1, til 300 til 1 eller enda høyere. Det faktiske forholdet vil variere avhengig av miljøet fordi backupregler og dataredundans ikke er konsistent i alle organisasjoner, og det vil ikke alltid være like høyt som leverandørene påstår. Det er likevel klart at egenskap kan gi dramatiske kutt i behovet for fysisk diskkapasitet. Brukere bør vurdere hvordan deduplisering vil slå ut i deres eget miljø for å se om VTL vil være rimeligere enn tradisjonell tape-backup eller disk-backup uten deduplisering.

Gartner peker også på at deduplisering kan gi ytterligere fordeler når det er snakk om å replikere to datalagre over store avstander: Ved å begrense den løpende replikeringen til endringer, fører deduplisering til store besparelser i båndbredde, tid til replikering, og fysisk lagring.

Når det gjelder kostnader, peker Gartner på at en VTL-løsning med deduplisering som regel vil være svært mye rimeligere enn en VTL-løsning uten denne egenskapen.

Ytterligere en fordel med deduplisering er at siden kapasiteten på de fysiske diskene reduseres dramatisk, oppnår man tilsvarende reduksjoner i miljøbelastninger knyttet til diskene, for eksempel lavere strømforbruk.

Til toppen