Google viser verden dine gamle synder

Det hjelper ikke å slette nettsider med feil eller hemmelig informasjon når Google har kopi. Slik løser du problemene:

I sitt forsøk på å kartlegge mest mulig av Internett, er Google av og til alt for flink.

Det har tidligere vært mye fokus på hvordan Google ikke bare kopierer HTML-sider som er ment utlagt på nettet. Google kopierer også det meste andre den kommer over, blant annet serverlogger, Excel-filer, passordfiler og statistikksider.

Dette skaper et stort sikkerhetsproblem. Og Google gjør vondt verre. For det hjelper i utgangspunktet ikke å fjerne filene. Ved hver Google-lenke ligger det nemlig en mindre lenke som heter "Cached". Dette er Googles backup-kopi som du kan få vist dersom hjemmesiden er nede.

En smart funksjon, men her ligger altså en HTML-versjon av alt Google har funnet, selv om original-filene er fjernet.

digi.no tok kontakt med Roar Eriksen som har jobbet som innleid konsulent hos Google med programmering av både søkemotoren og nettside-innsamleren (spideren). Han gir et ferskt og skremmende eksempel på hva Google ivrige spider kan føre til.

Eriksen påpeker en lite kjent funksjon som har gjort Google mye flinkere til å finne dokumenter og servere som tidligere ikke ble kopiert og gjort søkbare.

- Advanced-versjonen av Google Toolbar kopierer alle URLer du taster inn i din nettleser og sender dem tilbake til Google. Har ikke Google oversikt over URLene du taster inn, blir så disse ransaket, forteller den tidligere Google-programmereren.

Eriksen jobber i dag i Online Services, et selskapet som blant annet tilbyr hjelp for å gjøre nettsider mer synlig på søkemotorer. Han gir digi.no et ferskt og skremmende eksempel på hva Google ivrige spider kan gjøre.

- Det norske kontoret til et et stort internasjonalt bank/finans/forsikringsselskap gjorde en glipp og fikk indeksert alle interne PDF-filer. Blant disse PDF-filene lå åtte strategiske fremtidsplaner som viste hva selskskapet skal gjøre de neste seks år. Konkurrentene fant filene på Google selv om de ble fjernet fra serveren hos selskapet, forteller Eriksen til digi.no.

Konkurrentene til det store selskapet oppdaget seks-års-planene gjennom tilfeldige søk og kunne lese alt, forteller Eriksen. Om dette var de norske eller internasjonale strategiplanene vil ikke Eriksen kommentere.

Eriksen vil ikke røpe navnet på selskapet, men forteller at bedriften ikke viste hvordan de kunne begrense skaden. For det finnes flere løsninger:

Her er Eriksens råd:

- Google lover at de oppdaterer alt det cachede innholdet rundt 2-3 ganger i kvartalet, cache-tjenesten er ikke ment som en historisk logg, det skal være en backup som reflekterer virkeligheten. Men jeg har opplevd å finne et år gamle sider cachet hos Google, så dette kan du ikke stole på, sier den tidligere Google-konsulenten.

Har du fjernet et side eller et dokument som du ikke vil ha tilgjengelig, kan du gå til
denne Google-siden og be om fjerning. Men det tar rundt en uke før siden blir borte fra cachen, forteller Eriksen.

Det viktigste er derfor å planlegge og tenke søkemotor-sikkerhet. Bruk teknologien med robots.txt-filer på Internett-serveren din, understreker Eriksen.

Denne enkle tekst-filen forteller søkemotorer hva de har lov til å indeksere og alle de store søkemotorene, inkludert Google forholder seg til regler som settes opp i robots.txt-filer. For å være sikker bør du kryptere sensitive dokumenter, råder Eriksen.

Til toppen