Millioner av nettsteder gikk ned for telling: Dette gikk galt hos verdens største driftsleverandør

Nettsteder gikk ned over hele verden da Cloudflare gikk ned for telling. Selv Down Detector som viser nedetid hos nettsteder gikk ned for telling. Foto: Down Detector

Martin Braathen Røise

4. juli 2019 - 10:45

En feilkonfigurert regel i en brannmur endte tirsdag med å ta ned millioner av nettsteder over hele verden da driftsleverandøren Cloudflare gikk ned for telling. Det skriver selskapet i en oppdatering på egne hjemmesider.

– Vi skjønner at denne typen hendelser er svært smertefulle for kundene. Våre testrutiner har ikke vært gode nok, og vi vurderer nå test- og produksjonsrutinene våre for å sørge for at dette aldri skal skje igjen, skriver teknologisjef John Graham-Cumming i Cloudflare.

Millioner av nettsteder

Selskapet tilbyr skytjenester til millioner av nettsteder, og fungerer som et leveransenettverk og domenenavnstjener.

Tjenestene selskapet leverer skal beskytte mot overbelastning av infrastruktur, spam- og DDoS-angrep.

Nettbrukere over hele verden opplevde å få «502»-feilmeldinger da de kjørte spørringer mot hjemmesider som får levert tjenester fra Cloudflare. Også norske nettsteder ble rammet av problemene.

Nedetiden varte i rundt 30 minutter. Da det stod på som verst så selskapet et massivt hopp i prosessorbruk. Det sørget for at primære og sekundære systemer falt ned i datasentre over hele verden.

«Regular expression»-feil

Senere undersøkelser skulle vise at det var en miskonfigurert regel i en rutineoppgradering av brannmurene som sørget for den massive overbelastningen av infrastrukturen. Hensikten til den nye regelen var å blokkere enkelte JavaScript-angrep.

Regelen ble først sluppet i et testmiljø, men feilen ble ikke oppdaget der.

Les også:

Oslomet gikk i full krisemodus da alle IT-systemene gikk ned for telling

Videre undersøkelser viste at en av de nye brannmurreglene inneholdt en «regular expression»-feil.

Programmeringsverktøyet brukes til å søke etter mønstre, og er praktisk å bruke når man vil identifisere for eksempel skummel trafikk i en brannmur.

Serverclustre over hele verden brukte plutselig 100 prosent av tilgjengelig CPU-kraft da feilen i koden nådde produksjonsmiljøene.

Trafikken droppet 80 prosent

På det verste droppet trafikken med over 80 prosent. Dette er første gang selskapet skal ha hatt lignende problemer.

– Vi slipper oppdateringer til produksjonsmiljøene hele tiden, og har automatiserte systemer som kjører tester for å forhindre at denne typen hendelser skjer.

Denne grafen viser trafikkdroppen på et av datasentrene til Cloudflare. Foto: Cloudflare

– Uheldigvis ble disse brannmurreglene sluppet, og det førte til global nedetid, oppsummerer teknologisjef John Graham-Cumming i Claudflare i oppdateringen.