Slik skannet de inn en bit av historien

Millioner av bilder tilgjengelige for alle.

500 år med bilder kan fritt søkes gjennom. Bilde: Flickr

1. sep. 2014 - 10:41

2,6 millioner historiske bilder som spenner fra år 1500 til 1922 er nå tilgjengelige på bildetjenesten Flickr, og er fullt søkbare og indekserte.

Dette unike prosjektet gir hvem som helst tilgang til disse illustrasjone, som tidligere har vært så å si utilgjengelige for allmennheten.

Bildene stammer nemlig fra bøker som allerede hadde blitt skannet inn av organisasjonen Internet Archive og andre biblioteker. Digitaliseringen fokuserte imidlertid kun på ord, og bildene ble ignorert i indekseringen og taggingen. Man har kunnet søke etter ren tekst, mens bildene ikke var søkbare.

Internet Archive inngikk derfor samarbeid med forskeren Kalev Leetaru (via BBC), som utviklet dedikert programvare for å finne frem til illustrasjonene. Da bøkene ble opprinnelig skannet brukte man programvare som konverterte ordene til søkbar tekst, og programmet var satt opp til å kjenne igjen hvilke deler av sidene var bilder, slik at de ikke ble indeksert.

Bilde av Oslo Hospital, fra boken Glimpses of medical Europe, utgitt i 1908. Bilde: Flickr

Løsningen til Leetaru var å gå tilbake til de originale innskannede sidene, finne frem til bildene som opprinnelig ble ignorert, og lagre disse som separate jpeg-filer. Samtidig ble billedteksten og de nærmeste avsnittene rundt bildet registrert, slik at man kan søke på den nærliggende teksten.

Alt sammen ble deretter lastet opp til Flickr-kontoen, og man kan derfra søke gjennom arkivet. Man kan også klikke seg videre til de opprinnelige bøkene og lese hele teksten.

Det er mye automatikk involvert i prosessen, og taggingen er dermed ikke alltid optimal, men arkivet gir likevel et helt unikt innblikk i over 500 år med historie. Alle bøkene er tilgjengelige for offentligheten, men har aldri før vært søkbare på denne måten. Mange av originalbildene er også forlengst forsvunnet, så disse bøkene er den eneste måten å studere dem på.

Leetaru er langt fra ferdig med prosessen: Det er totalt 14 millioner bilder i arkivet, og nye bilder vil bli kontinuerlig lastet opp til Flickr. Forskeren ser for seg at Wikipedia kunne etter hvert begynne å benytte seg av arkivet, og Leetaru er villig til å tilby programvaren sin til andre bibliotek og arkiv, slik at andre også kan sette i gang med lignende prosjekter.

Bedriftsteknologi

Kommentarer

Du må være innlogget hos Ifrågasätt for å kommentere. Bruk BankID for automatisk oppretting av brukerkonto. Du kan kommentere under fullt navn eller med kallenavn.

Se flere jobber

Hvordan lage en stillingsannonse på Tekjobb?

Les mer

Senior IT-administrator

IT-direktør

Få annonsen din her og nå frem til de beste kandidatene

Lag en bedriftsprofil

En tjeneste fra