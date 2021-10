Mandag kveld, litt før klokka 18, gikk Facebooks tjenester ned og ble utilgjengelige for brukere over hele verden. Først klokka 00.46 meldte selskapets teknologidirektør, Mike Schroepfer, at ting var i ferd med å fungere igjen.

Facebook, Messenger, Whatsapp og Instagram var utilgjengelige for mange

I løpet av natten kom Facebook med en pressemelding som med relativt lite teknisk språk forklarer hva som gikk galt.

Det pekes på konfigurasjonsendringer i stamnettrutere som koordinerer trafikken mellom Facebooks datasentre, og at disse endringene forstyrret denne kommunikasjonen. Disse forstyrrelsene av nettverkstrafikken fikk en eksponentiell effekt på måten Facebooks datasentre kommuniserer på, noe som fikk tjenestene til å stoppe.

Den underliggende årsaken til nedetiden påvirket også mange av selskapets interne verktøy og systemer, inkludert flere som brukes i den daglige driften. Dette skal ha gjort forsøkene på å avdekke og løse problemet mer komplisert.

Slettet veibeskrivelsene

Dette bekrefter langt på vei de temmelig kvalifiserte spekulasjonene om at nedetiden var forårsaket av endringer som var blitt gjort i rutingprotokollen BGP (Border Gateway Protocol). Infrastrukturleverandøren Cloudflare kom i natt med et blogginnlegg som forklarer detaljene om hva som har skjedd, men enkelt forklart fjernet Facebook deler av sin egen infrastruktur fra internetts katalog med veibeskrivelser (ruter). Dermed var det ikke mulig for noen å finne veien til Facebooks nettverk.

Blant det som ifølge Cloudflare var omfattet av slettingen, var rutinginformasjonen til Facebooks egne DNS-servere (Domain Name System). Dette er årsaken til at mange fikk DNS-relaterte feilmeldinger i nettleseren når de forsøkte å besøke webversjonene av de Facebook-eide tjenestene, inkludert Instagram, Messenger, Whatsapp og flere andre. Men DNS-problemene var et symptom, ikke selve årsaken.

Berørte også eksterne tjenester

Cloudflare skriver også at noe som forverret problemet, er det faktum at verken mennesker eller apper godtar en feilmelding som et svar. De forsøker på nytt og på nytt, ofte med kort mellomrom, før de eventuelt gir opp. Når mange nok gjør dette samtidig, kan kapasiteten til systemene de benytter bli sprengt.

Cloudflares DNS-tjeneste skal ha opplevd opptil 30 ganger så mange forespørsler i minuttet som normalt. Dette kan ha ført til dårligere responstid, helt oppe i ti sekunder. Da timer DNS-forespørslene ut. Dette kan igjen ha forårsaket at brukere ikke har fått tilgang til tjenester fra helt andre leverandører.