Nettsky-entusiast og IT-gründer Amund Tveit i Atbrox. Frem til i fjor høst var han en av Googles fremste ingeniører i Trondheim. (Bilde: Per Ervland)

Friprog kloner Googles infrastruktur

Ekstrem datakraft tilgjengelig for småpenger, ifølge Amund Tveit.

Problem: Du eller din bedrift har behov for å prosessere en terabyte med data. Eller en petabyte. Innen rimelig tid.

Behandling av slike datamengder krever enormt med datakraft. Store virksomheter bygger gjerne egen maskinpark, men det er dyrt.

I tillegg er det en dårlig løsning i tilfeller der utnyttelsesgraden er lav. Kanskje er behovet å kjøre månedlige rapporter, eller en engangsjobb.

Nå kan bedrifter, store og små, eller enkeltpersoner, utnytte noe av den samme distribuerte kraften som ligger i Googles enorme infrastruktur.

Møt nordmannen som gjør dette, selv om bedriften hans bare består av to mann og et par bærbare PC-er.

Men først: Google har bygget verdens kanskje mest omfattende distribuerte IT-infrastruktur. De avslører ikke detaljene, men flere av nettgigantens interne teknologier er beskrevet i vitenskapelige rapporter.

Kloner Google-teknologi

Friprog-prosjektet Apache Hadoop (må ikke forveksles med den omstridte franske fildelingsloven Hadopi) baserer seg på dette.

Hadoop er et fritt Java-rammeverk, som støtter prosessering av store datamengder (flere petabytes) – distribuert i klynger med tusenvis av servere.

Prosjektet implementer blant annet kloner av Googles MapReduce-teknologi, Googles distribuerte filsystem (GFS) og Googles database for strukturerte data BigTable.

- Hadoop er tilgjengelig som en tjeneste i nettskyen til Amazon, men du kan også laste ned Hadoop og drifte dette selv på én eller hundre maskiner, sier gründer Amund Tveit i Atbrox.

Her rører han ved et vesentlig poeng: Skalerbarhet. Systemet gjør det enkelt å begynne med en maskin, og senere legge til datakraft etter behov. Mye datakraft.

Tveit har doktorgrad i maskinlæring fra NTNU, og var den første ingeniøren Google ansatte da de etablerte utvikleravdeling i Trondheim i 2005.

Han var også sistemann ut døren da avdelingen ble lagt ned i fjor. I september var det over og ut.

Tveit kunne blitt med Google videre, men valgte å bli i Trondheim, for å satse på egen bedrift sammen med kollega Thomas Brox Røst.

- Jeg hadde lyst å være gründer og min egen sjef.

Få i Norge, om noen, vet mer om Googles teknologier enn Tveit. Men dette kan han dessverre ikke snakke om, da slike opplysninger er taushetsbelagt.

Men han kan prate om noen av prosjektene til Atbrox, som opererer i nettskyen (cloud computing) akkurat som Google.

- Det er dataprosessering og språkprosessering vi holder på med. For meg er det storskala som er moro. Noen vil ha store forsterkere, selv vil jeg ha kraftige maskiner, men jeg vil slippe å se dem. Jeg vil ha dem ute i nettskyen.

Amund Tveit er en av få personer som faktisk kan «dra kortet og starte 1.000 maskiner» i nettskyen til Amazon, klare til bruk på én time.
Amund Tveit er en av få personer som faktisk kan «dra kortet og starte 1.000 maskiner» i nettskyen til Amazon, klare til bruk på én time. Bilde: Per Ervland

Forretningsideen til Atbrox er å tilby konsulenthjelp og utvikling av løsninger i nettskyen. Så langt har de blant annet utviklet programvare for dataanalyse og søk.

I ett prosjekt har de benyttet Hadoop hos Amazon for å drive storskala språkprosessering for Trondheim-selskapet LingIT. Oppgaven var å trekke ut såkalte n-gram fra deres datagrunnlag. Dette er datamodeller som beregner sannsynligheten av ord-forekomster i kontekst.

Nevnte vi at også Google bruker n-gram-modeller for beregninger til blant annet oversettelse av språk i tjenesten Google Translate?

LingIT-prosjektet har bidratt til programvareløsninger for personer med dysleksi, og fremheves hos Amazon som brukseksempel for deres web services.

Atbrox har gjort en rekke andre cloud-oppdrag, og lager også egne nettjenester. Flere av disse kan de imidlertid ikke snakke om nå, men vi håper å kunne komme nærmere inn på noen eksempler ved en senere anledning.

- Ekstrem operasjon

Sortering av store datamengder har vært brukt som referansepunkt for parallellprosessering i alle år. Tveit henviser til en test Yahoo utførte i fjor for å vise hvor godt Hadoop skalerer.

Yahoo sorterte et syntetisk datasett på én terabyte i løpet av 62 sekunder. En petabyte ble sortert på 16,25 timer ved hjelp av 3658 noder.

- Én petabyte er det største datasettet som har vært testet så langt. Det er en ganske ekstrem operasjon.

Prisen av en middag

For prisen «av en bedre middag» er det ifølge Tveit mulig å benytte tusen maskiner i nettskyen i én time.

- Dra kortet, så kan du kjøre på mange tusen maskiner. Med såpass datakraft får du gjort mye.

Det er også mulig å leie en enkelt maskin med opptil 68 gigabyte minne. Det koster under to og en halv dollar i timen.

Slik åpner nettskyen et helt nytt paradigme innen databehandling. Ressurser i en størrelsesorden som tidligere aldri har vært tilgjengelig, kan plutselig benyttes av hvem som helst.

digi.no skylder å gjøre oppmerksom på at de fleste Amazon-kunder vil møte en begrensning på antall maskiner de kan leie.

Økosystem

Det har vokst frem et stort utviklermiljø rundt Hadoop. Yahoo er en sentral bidragsyter til prosjektet. Det samme er selskapet Cloudera, som har mange ansatte med bakgrunn fra blant annet Facebook, Yahoo og Google.

- Hadoop er et levende prosjekt og det er veldig mange som bidrar. Cloudera kan sammenlignes med RedHat. De har samme rolle for Hadoop som RedHat har for Linux, sier Tveit.

Facebook, Yahoo, Adobe, AOL, IBM, New York Times, Last.fm, Rackspace, LinkedIn og søkeselskapet Powerset (nå kjøpt av Microsoft) er blant flere størrelser som bruker Hadoop.

Finner kjærlighet

Et mer kuriøst eksempel, som Tveit plukket opp under Hadoop World-konferansen i New York i fjor høst:

- To prosent av alle bryllup i USA er basert på Hadoop.

Matchmaker-nettstedet eHarmony benytter rammeverket for å finne kompatible partnere til mennesker på jakt etter den store kjærligheten.

Atbrox bidrar ikke til Hadoop-prosjektet selv, men blogger om bruken. I deres bedriftsblogg er det mulig å lære mer om praktisk bruk av infrastrukturen.

For ytterligere informasjon om Hadoop og de ulike komponentene rammeverket omfavner, se denne presentasjonen og nettstedet for Apache Hadoop.

    Les også:

Til toppen