Amazon forklarer massiv nedetid

Beklager hendelsen og tilbyr en viss erstatning.

Amazon kom fredag i forrige uke med en oppsummering av hva som hendte da et av datasenterne til selskapets nettskytjeneste ble mer eller mindre utilgjengelig for mange av kundene i en lengre periode fra og med natt til den 21. april.

Ifølge Amazon ble det klokken 00.47 (i tidssonen PDT – Pacific Daylight Time) utført en nettverksendring ved en enkelt Availability Zone (AZ) i selskapets region for det østlige USA. Endringen skal ha vært en del av selskapet normale skaleringsaktiviteter for AWS (Amazon Web Services).

Endringen ble gjort for å oppgradere kapasiteten til det primære nettverket til lagringstjenesten Elastic Block Store (EBS). Ett av de vanlige trinnene som er standard for Amazon å gjøre i forbindelse med dette, er å lede trafikken vekk fra én av de redundante ruterne i det primære EBS-nettverket for at oppgradere skal kunne gjennomføres. Denne flyttingen av trafikken ble gjort på feil måte. I stedet for at trafikken ble ledet via den andre ruteren i det primære nettverket, ble den rutet til et reservenettverk med lavere kapasitet.

Reservenettverket greide ikke å håndtere trafikken, noe som førte til at mange EBS-noder i den berørte AZ-en ble fullstendig isolert fra andre EBS-noder i AZ-ens klynge.

Da nettverksfeilen ble rettet, var det svært mange EBS-noder som på samme tid søkte etter ledig plass i klyngen for å opprette nye speilinger, siden de opprinnelige speilingene var utilgjengelige. Dette skal ha ført til at plassen i klyngen raskt ble oppbrukt. Samtidig fortsatte mange av nodene kontinuerlig å søke etter ledig plass. Amazon kaller dette for en «re-mirroring storm». 13 prosent av nodene i klyngen skal ha forblitt i denne fastlåste tilstanden.

Det skal være store ulikheter i hvordan de ulike kundene har blitt berørt av nedetiden. En del kunder hadde selv sørget for redundans ved at de også benyttet andre AZ-er i tillegg til den som var skadelidende. Etter hvert som Amazon fikk rettet problemene, fikk mange kunder tilgang til sine lagringsområder. Men i en del andre tilfeller tok det betydelig med tid. Den 24. april, klokken 12.30 (PDT), var det 1,04 prosent av lagringsvolumene som ennå ikke var blitt gjenopprettet. Noen få timer senere var andelen redusert til 0,07 prosent. Men disse siste lagringsvolumene har vist seg umulige å gjenopprette fullt og helt.

Nå var det ikke bare EBS-nodene i AZ-en som ble berørt. Også mange databaseinstanser i Amazons Relational Database Service (RDS) ble rammet, fordi tjenesten avhenger av EBS for lagring av både databasene og logger. I tillegg ble kontrollpanelet som i utgangspunktet skulle ha gjort det mulig å flytte instansene fra en AZ til en annen, også rammet av problemene.

Amazon beklager det inntrufne og tilbyr de berørte kundene en kreditt som tilsvarer ti dager med 100 prosent av deres bruk av EBS Volumes, EC2 Instances og EDS-databaser.

Dette er likevel en fattig trøst for de av kundene som ble hardest rammet av nedetiden. Kostnadene, eller tapet av inntekter på grunn av nedetiden, kan ha vært langt større enn det erstatningen er verdt. Ikke minst gjelder dette de kundene hvor Amazon ikke har kunnet gjenopprette lagringsvolumene. Selv om disse eventuelt jevnlig tar en sikkerhetkopi av dataene og oppbevarer den på utsiden av den berørte AZ-en, så vil alle endringer som har blitt gjort etter at sikkerhetskopien ble laget, være tapt.

Amazon lover at selskapet vil gjøre alt for å unngå at en slik hendelse skjer igjen. Det skal sikres at en slik form for «re-mirroring storm» ikke skal kunne oppstå på nytt, men selskapet vil også gjøre det enklere ta i bruk flere AZ-er.

Selskapet vil også jobbe for å redusere tiden det tar å utføre gjenopprettinger, samt å sikre bedre kommunikasjon med kundene i slike tilfeller.

    Les også:

Til toppen