Netcom stoppet til tross for doble systemer

Netcom hadde kjøpt seg en full reserveløsning, men likevel datt nettet ned. Her er hva Netcom glemte:

RETTET VERSJON: Klokken 13:10:

Seks timer etter at digi.no publiserte denne saken, tok Netcoms tekniske direktør kontakt og kom med en ny forklaring av hva som skjedde. Denne forklaringen er markert i rødt bunnen av saken.

28. april falt Netcoms mobilnett ned for tre gang på to år. Feilen rammet alle kunder både hos Netcom og aktører som leier plass i mobilnettet deres, blant annet Chess.

    Les også:

Feilen oppstod i samme system som forrige gang, men det var ikke i selve teleutstyret, men det såkalte lokalisering og autentiseringssystemet. Dette er i praksis en kraftig database-server som sørger for at kunder godkjennes når de kobles opp og at Netcoms mobilnett vet hvilken basestasjon kunden er tilknyttet til slik at innkommende samtaler rutes riktig.

Godkjenningen matcher trolig ID-nummeret til mobiltelefonen med riktig telefonnummer og sjekker at kundens konto ikke er sperret. Og denne initieringsprosessen ble det kritiske trinnet.

For første gangen gangen nettopp lokalisering og autentiseringssystemet som feilet, gjorde Netcom det alle IT-avhengige selskaper ville gjort: Man kjøpte inn en fullverdig reserveløsning for å sikre seg mot nye brudd. Det forteller Nina Kersten Nilsen i Netcoms informasjonsavdeling til digi.no

Fordi systemet var en nøyaktig kopi ville det fungere - trodde Netcom. Men man glemte initieringsprosessen for hver bruker spiser en del ytelse. I en vanlig driftsfase faller noen få kunder inn og ut av systemet og dette var server-systemet utstyrt til å takle.

Det Netcom ikke hadde tenkt på var at når det vanlige server-system faller ned og backup-løsningen skal overta, skal alle kundene initieres på nytt - samtidig. Det taklet ikke backup-kopien og den brøt fort sammen under den enorme belastningen, forteller Nilsen.

Netcom brukte så lang tid på å få rettet feil og åpnet opp systemet gradvis for å få tatt unna initieringen i porsjoner. Netcom hadde altså lært, men snublet i en liten detalje.

Nedetiden til Netcom serverer derfor en dyr leksjon til mange IT-folk: I en rekke typer systemer og situasjoner kan ikke reserversystemet bare være en kopi, det må ironisk nok være enda dyrere og bedre enn det vanlige driftssysstemet.

Åsmund Løset, teknisk direktør i Netcom servere en annen forklaring:

- Vi hadde en backup-system også første gang det oppstod en feil i lokalisering og autentiseringssystemet. Da var det en programvarefeil, men den var gjentatt i backupsystemet og dette systemet stoppet derfor også opp, forteller han.

- Den andre gangen var det en konfigurasjonsfeil i programvaren som stoppet reserveløsningen. Denne feilen tildelte for lite minne og systemet begynte derfor å swappe til disk. Dette tar for mye tid og dermed gikk systemet i stå, forteller han.

Til toppen