NETTVERK OG INFRASTRUKTUR

Ruting-feil hos KT Corporation gjorde at millioner mistet internett

Sør-Koreas nest største internettleverandør, KT, hadde et gigantisk utfall grunnet en feilkonfigurasjon i rutingen.

Mange titalls fiberkabler er koblet til Cisco Catalyst-svitsjen som i dag utgjør hoveddelen av samtrafikkpunktet NIX1.
Mange titalls fiberkabler er koblet til Cisco Catalyst-svitsjen som i dag utgjør hoveddelen av samtrafikkpunktet NIX1. Illustrasjonsfoto: Harald Brombach

Totalt var 16,5 millioner mennesker uten internett og telefon i 40 minutter. 

Problemene fikk store konsekvenser. Store butikkjeder gikk ned for telling da betalingssystemene plutselig var ute av drift. Også landets skolevesen merket problemene godt, melder Bleeping Computer

BGP-feil, igjen

Det skal ha vært en feilkonfigurasjon i rutingprotokollen Border Gateway Protocol (BGP) som sørget for de store problemene mandag denne uka. 

Protokollen er en mekanisme for å utveksle veibeskrivelser mellom systemene som utgjør den bakenforliggende infrastrukturen på internett.

I praksis holder disse internett i gang, og sørger for at pakkene som blir sendt frem og tilbake mellom eksempelvis landegrenser og store tjenesteleverandører ender der de skal. 

Uten BGP funker ikke internett, noe nedetiden i Sør-Korea er et godt eksempel på. 

Facebook gikk på samme smell

Les også

Det var også en BGP-feil som sørget for at Facebook, Messenger, Whatsapp og Instagram knelte for store deler av verdens befolkning i begynnelsen av oktober

Sikkerhetsspesialisten Kevin Beaumont tvitret at Facebook hadde begått en temmelig episk konfigurasjonsfeil.

– Facebook eksisterer rett og slett ikke på internett akkurat nå. Selv deres autorative navnetjenere har blitt trukket tilbake med BGP, skrev Beaumont.

Selskapet skrev da at de hadde gjort konfigurasjonsendringer i stamnettrutere som koordinerer trafikken mellom Facebooks datasentre.

Konfigurasjonsfeil i stamnett

Da Facebook jobbet med konfigurasjon av stamnettet ble det sendt ut en kommando som tok ned alle serverforbindelsene mellom datasentrene og internett

Systemene til Facebook er designet slik at denne type kommandoer blir revidert før de utføres, men denne gangen ble ikke kommandoen stoppet. Ifølge selskapet skyldtes det en feil i revideringsverktøyet. 

Forstyrrelsene på nettverkstrafikken gjorde at selskapets datasentre sleit med å kommunisere med hverandre, noe som fikk tjenestene til å stoppe.

Enkelt forklart fjernet Facebook deler av sin egen infrastruktur fra internetts katalog med veibeskrivelser (ruter). Dermed var det ikke mulig for noen å finne veien til Facebooks nettverk.

Cloudflare fikk flodbølge av forespørsler

Les også

– Vi vil definitivt se på måter å simulere hendelser som dette i framtiden, skrev infrastrukturdirektør Santosh Janardhan i et blogginnlegg

Ikke før etter seks timer var tjenestene opp igjen. Facebooks datasentre skal i praksis levere en oppetid på 99,999 prosent for å bli vurdert som seriøse. Det tilsvarer at de kan ha fem minutter nedetid i løpet av et helt år.

Å si at selskapet gikk på en smell av gigantiske proposisjoner, er derfor ikke noen overdrivelse. 

Problemene skal også ha ført til at offentlige DNS-serveren til Cloudflare, som har IP-adressen 1.1.1.1, har blitt utsatt for en flodbølge av forespørsler fra brukere og programvare som stadig forsøker på nytt å lokalisere Facebook-tjenestene. 

Selskapets DNS-tjeneste skal ha opplevd opptil 30 ganger så mange forespørsler i minuttet som normalt. Dette kan ha ført til dårligere responstid, helt oppe i ti sekunder.

Noe som fører til at DNS-forespørslene timer ut. Dette kan igjen ha forårsaket at brukere ikke fikk tilgang til tjenester fra helt andre leverandører. 

Les også

Kommentarer:

Vi har byttet system for artikkelkommentarer. For å opprette brukerkonto, registrerer du deg med BankID.