(Bilde: DropBox/digi.no)

Dropbox krasjet

Slik forklarer de helgens nedetid.

Dropbox melder at de er på vei mot en normaltilstand etter en helg med store driftsproblemer.

Den populære tjenesten som tilbyr lagring og synkronisering av filer i nettskyen gikk fredag ned for telling.

Det hele startet som følge av en planlagt oppgradering av operativsystem på enkelte av maskinene i serverparken, oppgir selskapet i en kunngjøring.

En diskré feil i vedlikeholdskriptet gjorde at oppgraderingen rettet seg mot et mindre antall aktive maskiner, noe dette skriptet egentlig skal sørge for å unngå.

Slik Dropbox forklarer infrastrukturen har de mange tusen databaser, hver satt opp med én master og to slave-maskiner for redundans. Feilen gjorde at noen av master-slave-parene ble berørt, noe som igjen gjorde at hele nettjenesten falt ned.

Det bedyres at ingen av brukernes data ble rammet, bare tilgjengeligheten. De berørte databasene skal ikke ha inneholdt filer.

Tjenesten ble delvis gjenopprettet fra backup med «mesteparten» av funksjonaliteten intakt i løpet av tre timer, ifølge Dropbox.

Med sitt enorme omfang av lagrede data – Dropbox oppgir å ha mer enn 200 millioner aktive brukere, og mer enn én milliard filer blir synkronisert via tjenesten hver dag – så er det klart at gjenopprettingen av alle databasene tok lenger tid.

Åpen kildekode

I en oppdatering søndag het det at nesten alle (minst 99 prosent) av brukerne igjen hadde full tilgang til filene gjennom webgrensesnittet på dropbox.com. Det var da fortsatt enkelte problemer knyttet til synkronisering av filer, men for et mindretall, opplyser selskapet.

Det blir i en teknisk gjennomgang redegjort for hva Dropbox har lært av episoden. Det er blant annet innført et ekstra lag av sikkerhetssjekker, for å bekrefte hvilke maskiner som er i produksjon før en oppgradering.

Standardverktøyet for å tilbakestille MySQL-data fra backup er for treg når det gjelder data i det omfanget vi snakker om her, erkjenner de. Dropbox opplyser at de derfor har utviklet et eget nytt verktøy, som gjør denne jobben langt raskere.

Dette verktøyet planlegger de å utgi i åpen kildekode. Slik ser det altså ut til å komme iallfall noe godt ut av hendelsen.

– For å øke hastigheten på gjenopprettingen utviklet vi et verktøy som parallelliserer innlesingen av binære loggfiler. Dette gjør det langt raskere å gjenopprette store MySQL-sikkerhetshopier. Vi planlegger å utgi dette verktøyet i åpen kildekode, slik at andre kan dra nytte av det vi har lært, heter det.

I skrivende stund mandag morgen er det fortsatt enkelte ting som gjenstår i arbeidet med å gjenopprette full normaltilstand. Det omfatter blant annet bilde-fanen som er avskrudd. Alle bilder skal imidlertid være tilgjengelig fra det ordinære fillageret.

    Les også:

Til toppen