Da Telenor fikk besøk av Murphy

Her er hva som skjedde da statens nettsider stoppet i en uke i janauar. Telenor hadde ikke sikret seg med de vanligste mulighetene. - Vi og andre må lære, innrømmer IT-giganten.

Nedetid og datatap skyldes stort sett ikke skumle terrorister og hackere - årsaken er som regel hverdagslige tekniske problemer og svikt i tilpassing, planlegging og gjennomføring.

Dette fikk hele Norge en påminnelse om da nettsidene til Telenor og hele statsapparatet falt ned mandag 27. januar. Telenors sider kom fort på bena, men Odin-serveren til alle departementene og en rekke omkringliggende organisasjoner var av luften i en hel uke.

Episoden viser seg trolig å være ganske typisk for IT-problemene som små og store bedrifter sliter med etter hvert som Internett blir noe vi stoler på

Telenor og Statens forvaltningstjenesten har nå gitt digi.no en gjennomgang av akkurat hva som skjedde og endringene man har gjort i etterkant.

Kontrakten om drift av Odin skal snart ut på anbud, og Telenor ønsker å vise at de har ryddet opp.

Odin og Telenors nettsider var til tross for det viktige og omfattende innholdet, drevet på et utstyrsmessig ganske beskjedent system - en løsning som hadde rullet og gått i hele fem år. Dette er en mannsalder i IKT-bransjen og da Murphy kom på besøk, fikk dette konsekvenser... (Murphys kjente lov sier at alt som kan gå galt, går galt - og på det verst tenkelige tidspunktet).

Systemet var drevet av en enklere Sun-server med to små lagringsskap. I hvert av skapene sto det 15-20 hardddisker. Disk-skapene var kopier av hverandre, slik at dersom ett falt ned, ville det andre overta.

Men i tillegg til en slik speiling er det veldig vanlig å kopiere data på flere disker i samme skap. Da kan en harddisk falle ut og man kan bytte den uten å ta ned systemet fordi alle data ofte ligger på både to og tre disker. En slik ekte RAID-løsning er blitt hyllevare, særlig fordi lagringsplass er så billig - en harddisk på 150-200 GB koster bare noen tusenlapper.

Men diskene i Odin-serveren var gamle og da sparte man nok mer på plassen - data lå bare lagret på én disk av gangen, så da en disk feilet på søndag formiddag, stoppet det ene lagringsskapet opp. Diskene i det andre skapet var sannsynligvis like gamle, og før Telenor fikk byttet disken på mandag morgen, feilet også en disk i det andre lagringsskapet.

Feilene oppsto selvfølgelig på det verst tenkelige tidspunktet - rundt natt til søndag.

I utgangspunktet hadde ikke dette tatt lang tid å rette. Telenor tok fullstendig backup av Odin hver uke og fortløpende backup hver dag.

Men Odin-serveren hadde tuslet og gått i fem år uten stopp. I mellomtiden hadde Internett gått fra noe nytt og spennende til en naturlig del av hverdagen vår. Antall filer på serveren hadde derfor vokst til hele 2,5 millioner. Det var først da Telenor skulle ta i bruk backupen at de oppdaget at systemet ikke tok backup av hele disker i en jafs.

I stedet hentet backup-systemet en og en fil, og da tar det tid når køen er på 2,5 millioner småfiler... Hadde man kunne legge tilbake hele disk-images hadde datamengden på 40-45 GB vært tilbakeført på kanskje en halv time.

I tillegg til tilbakeføring av data valgte Telenor å sette opp et nytt helt nytt server-oppsett med blant annet RAID-lagring. Dette tok også tid.

Stein Tømmer, direktør for Internett-tjenester i Telenor Norge, innrømmer at man burde ha installert RAID-lagring tidligere.

- Vi fulgte ikke med og hadde ikke oppdaget hvor raskt Odin vokste. Da da våre backrutiner sviktet fordi systemet var feil konfigurert, ga dette dessverre en fryktelig lang nedetid.

Tømmer mener at både Telenor og resten av bransjen kan ta lærdom av episoden. Han råder både kunder og leverandører jevnlig å kontrollere løsninger, selv om de fungerer perfekt.

Man bør også simulere de forskjellige feilsituasjonene og teste erstatninger og backup.

Til toppen