Server-omstart førte til propp i mobilnettet

Telenor skylder overhodet ikke på leverandørene.

Under et pressemøte i dag, fortalte ledelsen til Telenor om hva som egentlig skjedde da selskapet mobilnett var mer eller mindre utilgjengelig i 11 timer fredag i forrige uke.

Konsernsjef Jon Fredrik Baksaas innledet med å fortelle at selskapet har mye å beklage og at situasjonen som oppstod på fredag nesten er en teleoperatørs mareritt.

– Dette er den mest alvorlige feilen som har oppstått siden man begynte med mobiltelefoni i Norge, sa Baksaas.

Han erkjenner at det tok for lang tid for selskapet «å komme på lufta» igjen. Han innrømmer også at han selv burde ha vært tilgjengelig for media på tidligere tidspunkt.

Telenor har nå sendt en rapport om feilen til Post- og teletilsynet.

Ragnar Kårhus, leder for Telenor Norge, under pressemøtet torsdag.
Ragnar Kårhus, leder for Telenor Norge, under pressemøtet torsdag. Bilde: Telenor videostrøm

Ragnar Kårhus, administrerende direktør i Telenor Norge, hadde det overordnede ansvaret for feilhåndteringen. Han fortalte at feilen oppstod rett før klokken 13 og førte til en manglende evne til å ringe og sende tekstmeldinger. I en kort periode skal også mobilt bredbånd ha vært berørt. Feilen skal ha rammet omtrent tre millioner kunder, inkludert kunder hos andre operatører som benytter Telenors nett.

Kårhus mener at feilen skjedde på et maksimalt uheldig tidspunkt. Det var fredag ettermiddag før pinse, et tidspunkt hvor det i utgangspunktet er mye mobiltrafikk. Men i tillegg kom flomsituasjonen.

– Flommen var ikke direkte årsak til denne feilen, men vi hadde mindre brudd på fiber i flomområdet, noe som fikk lokale konsekvenser, fortalte Kårhus.

– Samtidig er dette en påminnelse om at mobilnettet ikke er et nødnett, la han til.

Kårhus sa videre at det nå er viktig for Telenor å gå gjennom alle rutiner for å unngå tilsvarende feil. Hele årsaksbildet er nå fullstendig kartlagt. Vi kommer tilbake til dette litt senere i artikkelen.

Telenor iverksatte selskapets kriseledelse omtrent klokka 14 på fredag og opplevde det som utfordrende også for ledelsen at mobilnettet var falt bort.

– Vi hadde god nytte av fastnettet og brukte lynmeldinger, fasttelefon og bredbånd, fortalte Kårhus. Overfor kundene ble i stor grad Facebook, Twitter og selskapets eget nettsted benyttet for å ha dialog med blant annet kunder.

Selve årsaken

Ingrid Lorange, som er driftsdirektør i Telenor med ansvar for drift og utbygging, forklarte hva som egentlig skjedde. Hun innledet med en rask gjennomgang av hvordan mobilnettet er bygget opp, og forklarte at det går enorme mengder med signaleringstrafikk gjennom kjernenettet. Dette er trafikk som blant annet inneholder informasjon om hvem som ringer, hvilke basestasjon de er knyttet til og mye annet.

– Samtlige servere i kjernenettet er etabler slik at det er minimum to av hver. I de fleste tilfeller er det flere, så Lorang.

Skisse over oppbyggingen av Telenors mobilnett i Norge.
Skisse over oppbyggingen av Telenors mobilnett i Norge. Bilde: Telenor

Hendelsen oppstod da Telenor skulle rettet en feil i programvaren til en sentral server for datatrafikken i kjernenettet. Denne kalles for SGSN (Serving GPRS Support Node) og fungerer som en port mellom Radio Network Controller (RNC) og kjernenettet i et GPRS/UTMS-nettverk.

Feilen oppstod etter en omstart av en av SGSN-komponentene, som vises i illustasjonen over.
Feilen oppstod etter en omstart av en av SGSN-komponentene, som vises i illustasjonen over. Bilde: Telenor

Telenor har to slike SGSN-servere og tok ned den ene for å rette programvaren. Dette har selskapet også gjort tidligere uten problemer, og det er en operasjon som vanligvis tar omtrent ti minutter, ifølge Lorange.

Ingrid Lorange, driftsjef i Telenor, forklarte under pressemøtet torsdag som som egentlig forårsaket nedetiden i mobilnettet.
Ingrid Lorange, driftsjef i Telenor, forklarte under pressemøtet torsdag som som egentlig forårsaket nedetiden i mobilnettet. Bilde: Telenor videostrøm

Når dette gjøres, oppstår det noe som Lorange kaller for en signaleringsstorm. Alle kundene som er knyttet til den ene serveren må overføres til den andre. Denne delen av operasjonen gikk ifølge Lorange helt greit. Problemet oppstod da den første serveren ble startet på nytt. Da oppstod det en ny signaleringsstorm, men denne gangen oppstod det en nesten total stans i trafikken.

– Vi har aldri hatt en lignende feil. Driftsorganisasjonen er vant til å finne feil som berører en liten del av nettet og at det er raskt å finne årsak. Vi oppfatter det som ekstremt å kunne rette feil først etter flere timer, sa Lorange.

– Etter femten minutter fant vi ut at dette var en komplisert feil, en som var vanskeligere enn det vi tidligere har opplevd. På dette tidspunktet var allerede alle sentrale leverandører involvert. Men vi klarte ikke å isolere problemet til én boks, sa Lorange.

Propp i trafikken

Det man etter hver fant ut, var at det var det samlede omfanget av signaleringstrafikken som skapte en propp. Ifølge Lorange måtte driftsorganisasjonen flere ganger restarte og resette servere og signaleringslinker i flere områder.

– Dette førte til at det meste av trafikken gikk som normalt fra klokken 22.15. Vi fikk deretter resatt samtlige servere og linker, sa Lorange. Telenor anså problemet om rettet ved midnatt.

– Dette skal i utgangspunktet ikke kunne skje. Vi har dimensjonert for denne typen trafikk. Når det skjedde allikevel, så har vi et eller annet sted gjort en feilvurdering, fortalte hun.

Tiltak

– Vi har allerede økt kapasiteten på samtlige komponenter der det er mulig. Dette ble gjort på lørdag, sa Lorange.

Hun forteller også at det har blitt etablert en beskyttelsesmekanisme basert på en buffer som slipper gjennom litt trafikk om gangen ved en signaleringsstorm.

– Dette er en tilleggsgarantist for at feilen ikke skal kunne skje igjen.

Hun fortalte også at Telenor vil sette iverk flere tiltak framover. Blant annet skal hele nettdesignen og dimensjoneringen revideres. Revisjonen vil kunne avdekke hvor feilvurderingen har skjedd.

Leverandører

På spørsmål om hvilke leverandører som har vært involvert i krisehåndteringen, sa Lorange at dette ikke er relevant.

– Det er Telenor som har ansvaret. Feilen er ikke knyttet til én komponent i nettet.

Baksaas la mot slutten til at det er mange operatører, ikke bare i Telenor-konsernet, som er opptatt av denne feilen.

Kårhus kunne ikke si noe konkret om hva feilen totalt vil koste Telenor, utover at kompensasjonen som kundene fikk ved at de kunne bruke mobilnettet gratis i pinsehelgen, har kostet i størrelsesorden 100 millioner.

Til toppen