Det var her i «krigsrommet» at Altinn-leverandørene, både Basefarm og Accenture overvåket og drev feilsøking når problemene meldte seg. (Bilde: Marius Jørgenrud)

- Vi rakk ikke å «skru igjen krana»

Basefarm gjør rede for Altinn-hendelsen. Det gjør ikke Accenture.

NYDALEN (digi.no): Leverandøren som drifter Altinn tar opp hele femte etasje i TVNorge-bygget, hvor det jobber om lag 180 teknologer.

Vi er på besøk i det såkalte «krigsrommet» til Basefarm. Eller operasjonssenteret, som tas i bruk ved kritiske situasjoner.

Dagen da selvangivelsen gjøres tilgjengelig er en slik kritisk periode. Natt til tirsdag i forrige uke hadde de organisert seg med beredskapsplaner og døgnbemanning. Klok av skade, om du vil. Altinn knelte også i fjor.

Årets frislipp står imidlertid tilbake som den hittil mest dramatiske. Problemene oppsto etter at portalen var nede en periode på ettermiddagen. Ved gjenåpning klokken 18.17 fikk alle som logget seg inn servert det samme skjermbildet, med personopplysningene til den nå berømte «Kenneth (36)».

Kriseleder i Basefarm Thomas Klokkerhaug.
Kriseleder i Basefarm Thomas Klokkerhaug. Bilde: Marius Jørgenrud

Straks teknikerne ble oppmerksomme på feilen 18 minutter senere ble portalen stengt, men da var skandalen allerede et faktum.

- Vi hadde prosedyrer for å stenge løsningen. Deretter ble rommet brukt til hovedfeilsøkingen. Leverandørene Basefarm og Accenture satt her og feilsøkte. Vi sto på som helter og det var en enorm dugnadsånd fra alle som var involvert, forteller kriseleder Thomas Klokkerhaug.

For utrolig til å være sant

Det inkluderte etter hvert også norske representanter fra F5 Networks. De leverer lastbalansereren Big IP, som viste seg å ha en hittil ukjent programvarefeil i sin mellomlagringsfunksjon (cache).

- Når mistanken dreide mot Big IP, så kunne det også skyldes at noen hadde konfiguert den om ved en feiltakelse. Vi visste at feilen lå i den boksen, men ikke årsaken. Derfor måtte vi sjekke om det stemte. Det siste vi trodde var at dette skyldtes en sånn bug. Det er egentlig litt for utrolig til å være sant, sier Basefarm-direktør Bjart Kvarme.

I løpet av natten ble det også opprettet sak hos F5 i USA, som senere lyktes gjenskape programvarefeilen i Big IP i egen lab. Løsningen ble å skru av cachefunksjonen. Først fredag etter tre døgns nedetid ble rapporteringstjenesten åpnet igjen.

- Det er alltid feil i programvare. Noen må være de første til å finne den, og dessverre ble det oss, sier Basefarm-direktøren, som påpeker at F5 Networks er en av de to mest anerkjente leverandørene av lastbalanserer.

Men Altinn har flere utfordringer. En omfattende teknisk rapport fra Det Norske Veritas har avdekket store svakheter i prestisjeløsningen som hittil har kostet norske skattebetalere minst 1,1 milliarder kroner.

Adm.dir. Bjart Kvarme i Basefarm Norge.
Adm.dir. Bjart Kvarme i Basefarm Norge. Bilde: Marius Jørgenrud

Pusteproblemer

- Altinn fungerer bra 364 dager i året, for å sette det litt på spissen. Og så har [løsningen] store pusteproblemer med volumet når hele Norges befolkning skal på samtidig, sier Basefarm-direktør Bjart Kvarme.

Slik er det ikke resten av året. På en normaldag er trafikktoppene sjelden over 8 prosent av hva systemet skal takle, ifølge Kvarme.

- Trafikken er ikke akkurat dramatisk, sier han og peker på grafer fra overvåkningen av systemet.

- Kunne Basefarm gjort noe annerledes for å unngå katastrofen i forrige uke?

- Det er et spørsmål vi har stilt oss selv også. Vi har lagt ned mye tid i forkant av selvangivelsen på å teste og teste og teste. Det er funksjonstester og ytelsestester på det meste. Jeg tror at den hendelsen, altså cache-bugen, kommer ved såpass spesielle tilfeller at det ikke vil være mulig å finne den i forkant, sier Kvarme.

- Mener du det er tilfeldig at dette skjedde akkurat den dagen selvangivelsen ble lagt ut?

- Jeg tror det var en stor grad av tilfeldighet involvert, ja. Så er det mye mer volum den dagen. Løsningen er egentlig skalert for å håndtere all trafikken.

Her peker Kvarme på løsningen med et ventetidsplakat. Det er en slusemetode for å slippe til brukere litt om litt.

2,5 millioner køplakater

Basefarm har registrert at de serverte i alt 2,5 millioner ventetidsplakater i løpet av lanseringsdagen for selvangivelsen i år, kan Basefarm-direktøren fortelle.

- Vi satt kontinuerlig og justerte påtrykket, altså i retning av ventetidsplakaten avhengig av hvor godt løsningen bak hadde det. Hvis det var ledig kapasitet bak i Altinn-løsningen så slapp vi på flere brukere. Og fikk den for mye å gjøre så skrudde vi igjen krana littegrann.

- Hadde dere kapasitetsproblemer denne dagen?

- Egentlig ikke. Bortsett fra når du fikk den «garbage collection»-hendelsen rundt klokken 16. Da skjedde det så fort at vi ikke rakk å skru igjen krana. Vi hadde ikke sjans til å reagere fort nok rett og slett.

- Hva tenker du som leverandør om hva hendelsen har gjort med omdømmet til Basefarm?

- Det er klart at dette er en hendelse vi absolutt skulle vært foruten. Men vi tror og mener at vi har gjort alt i forkant for å avverge det.

- Mange skylder på at arkitekturen i bunnen av Altinn har blitt for stor og uhåndterlig. Er du med på det?

- Ikke i forhold til den hendelsen som var nå.

Accenture tier

I motsetning til Basefarm har systemleverandør Accenture valgt å ikke snakke om hendelsen.

- Vi velger å ta alle spørsmål direkte via kunden. Dette er vår måte å håndtere det på, sier pressekontakt i Accenture Georg A. Huus til digi.no.

(Videoredigering: Per Ervland)

Kriseleder Thomas Klokkerhaug i Basefarm sitt «krigsrom». Rundt 20 personer jobbet i skift der for å håndtere Altinn sin aller travleste dag.
Kriseleder Thomas Klokkerhaug i Basefarm sitt «krigsrom». Rundt 20 personer jobbet i skift der for å håndtere Altinn sin aller travleste dag. Bilde: Marius Jørgenrud

    Les også:

Til toppen