Amazon forklarer «skybruddet»

Strømsvikt uten lynnedslag, samt et DNS-problem og en «bug» i systemets hjerte.

I forrige uke var flere av nettskyetjenestene til Amazon nede i et område i Vest-Europa. Problemene startet med en strømsvikt søndag kveld 7. august som slo ut tjenestene EC2 (Elastic Compute Cloud), EBS (Elastic Block Store) og RDS (Relational Database Service) for en bestemt «Availability Zone» i region «EU West». For de verst rammede brukerne var EBS-tjenestene utilgjengelige helt til natt til torsdag 11. august.

    Les også:

Amazon la i går ut en detaljert redegjørelse for hva som skjedde: Summary of the Amazon EC2, Amazon EBS, and Amazon RDS Service Event in the EU West Region.

Oppsummeringen forklarer at den utløsende faktoren var strømsvikt som fikk ekstra store følger fordi nødløsninger ikke fungerte som ventet. Strømsvikten forsterket virkningen av en programvarelus som det ble arbeidet med da strømmen ble borte. Gjenopprettingsarbeidet ble ytterligere komplisert av et DNS-problem.

Strømmen falt ut på grunn av svikt i en transformator. Det ble først forklart at lynet hadde slått ned. Nå heter det at svikten sannsynligvis skyldes noe annet enn lynnedslag. Det arbeides fortsatt med å kartlegge den egentlige årsaken.

Nødstrømanleggene som skulle tatt over, ble hemmet av svikt i en av de elektroniske kretsene – en PLC eller «programmable logical controller» – som skulle sørge for fasesynkronisering mellom dem. Denne svikten førte til at ikke alle nødaggregatene fikk levert strøm dit den skulle. UPS-ene som skulle sørge for konstant spenning i tiden før nødstrømmen var på plass, fungerte som de skulle, men gikk etter hvert som for strøm.

Følgelig falt «nesten alle» EC2-instansene ut i den aktuelle tilgjengelighetssonen, i tillegg til 58 prosent av alle EBS-volumer. Dessuten mistet sonen sambandet med Internett og med andre tilgjengelighetssoner. Siden noen kunder har tjenester spredt over flere tilgjengelighetssoner, førte det til at også noen av disse fikk problemer.

Amazon forteller at strømsvikten utløste et DNS-problem som fikk alvorlige følger for RDS-kunder med en løsning der en primær og en sekundær instans av databasen befant seg i hver sin tilgjengelighetssone. Problemet ble skjerpet av en feil i systemprogramvaren rundt denne typen konfigurasjon, en feil som man hadde oppdaget men ennå ikke forstått eller rettet fullt ut da strømsvikten slo til. I forlengelsen av feilen hadde manuelt arbeid med synkronisering av databaseinstanser ført til at noen kunder mistet data. Dette ble oppdaget, men gjenopprettingsarbeidet ble forstyrret da strømsvikten slo til.

Rapporten gjør rede for flere tiltak som skal hindre en tilsvarende strømsvikt fra igjen å utløse omfattende tjenestesvikt.

Tiltakene gjelder PLC-ene, styringssystemet for EC2, forbedringer i håndteringen av spredte EBS og flere tiltak for å gjøre RDS spredt over flere tilgjengelighetssoner mer pålitelig. Den aktuelle programvarefeilen skal selvfølgelig rettes, og automatiseringsgraden i driften av nettskyen skal økes ytterligere.

Amazon beklager at kommunikasjon til kundene ikke var så god som den burde ha vært under krisen. Det loves at i en ny krise vil supportteamet styrkes raskt, og at det skal bli enklere for kunder å finne ut av hvordan en krise påvirker deres ressurser. Det loves videre bedre veiledning i bruk av gjenopprettingsverktøyene i nettskytjenestene.

Kunder som er rammet tilbys ulike former for kompensasjon, som gratis tjenester over kortere eller lengre tidsrom.

Og til slutt understreker Amazon at de ber om unnskyldning.

Til toppen