Ledige IT-stillinger

Annonse
Annonsebilag

Google bruker flyhangar-store haller, men Norge er tross alt ikke mer enn 4,5 millioner mennesker. Bildet over viser faktisk nesten hele Sesam - 10 standard rackskap med bladservere og lagringskabinetter med harddisker stablet i rackformat. digi.no fikk ikke lov til å ta bilder av hverken bygget eller andre oversiktsbilder av server-rommet.

Det er kjemisk fritt for proprietære løsninger på de 160 Linuxbaserte serverne som driftes av Basefarm på Nydalen. Sesam har byttet ut Dell-servere med HP.

Sesams programvare er alt fra Fast, Bodi (business objects data integrator), Apache, MySql og JBoss. Alt kjøres på rene Linux-maskiner basert på distribusjoner fra CentOS og RedHat. Firefox er på grunn av sin funksjonalitet den foretrukne nettleseren hos Sesam.

Utviklerne får jobbe med de utviklingsverktøy de selv ønsker, fra tradisjonsrike Emacs til mer moderne rammeverk som Eclipse, NetBeans og IntelliJ. Sesam har som mål å bruke programvare basert på åpen kildekode i størst mulig grad som skal fungere på alle plattformer; Linux, Mac og til og med Windows. Det meste av Sesam er programmert i Java.






En søkemotor må først kopiere innholdet på en nettserver den skal gjøre søkbar. Kopiering av nettsider (crawling) skjer gjennom fire store servere, og med søketeknologi fra norske Fast Search & Transfer. Samarbeidet fungerer åpenbart bra, for Sesam ble kåret til årets teknologipartner 2006 med Fast.

Crawlermaskinene har kopiert informasjon fra 70 millioner norske nettsider (adresser som ender på .no) så langt, men informasjonsmengden øker med 20 prosent hvert år, anslår teknisk direktør Kent Vilhelmsen i Sesam.

Totalt antas det i dag å være rundt 200 millioner norske nettsider, men her er det mange doble URL-er og identiske sider som er blitt luket bort som unødvendige søk.






Kvalitetsikring av data: Morten Tvenning og Glenn-Erik Sandbakken er blant de fire personer som skal kvalitetsikre data fra crawlermaskinene. De to overvåker hver sin crawlermaskin.

1 person kontrollerer 50 000 blogger. En annen person har totaloversikten over de vel 70 millioner web-adressene. En tredje person kvalitetsikrer nyheter fra 500 aviser, og den fjerde personen kontrollerer en million bilder fra Scanpix og flere hundre millioner nettbilder.






Datavasking: Sesam har spredd maskiner med ulike arbeidsoppgaver rundt i rackene sine der det har vært plass i de 10 rackskapene. Denne maskinen «vasker» data, blant annet for å luke ut duplikater, søkejuks og sider som ikke er ment for å leses av mennesker. Sesam mottar data fra 25 leverandører som alle leverer kilder i forskjellige formater med ulike samlemetoder, kvalitet og oppdatering. Stoff fra VG blir for eksempel oppdatert hvert femte minutt, mens førstesiden hos Universitetet i Oslo eller NTNU kan oppdateres hver tredje måned.







Indekseringsmaskiner og søketjenere: I dette racket står maskinene som gjør den kritiske indekseringen og selve søkene. Indekseringen kan beskriver som å telle ord og lage tabeller over hvert dokument. Når du så søker på ordene «Stoltenberg» og «Jens», leter du egentlig i to tabeller skapt av indekseringen. Men alle ord er ikke like: Fast-programvaren klarer å tolke og skille ut mange typer informasjon: "Stortingsgaten 16" er ikke et ord og et tall, det er en adresse.

Nå kan selve søket gjøres. Når du søker på Jens Stoltenberg fordeles søket ditt til en av over 20 rackservere som har lagret alle indeksene. Et oppslag viser hvilke nettsider som innholder ordene Jens og Stoltenberg og spytter så ut lenkene til sidene med treff.

Så skal det lages en nettside med lenker til riktige dokumenter. Lagringsserverne svarer spørre-serverne, og disse tar i sin tur svaret tilbake til hovedprogrammet, som er ansvarlig for å legge til grafikk og formatere svarsiden slik den skal se ut når den sendes tilbake til sluttbrukeren.





Bodi - Integrasjonsplattform: Tidligere søkte man bare på HTML-dokumenter eller bilder, men nå skal søkemotorer servere treff på mange typer kilder. Dette krever en egen løsning. De ulike kildene og formater krever en egen integrasjonsplattform som henter opp data fra telefonoperatører, bransjeregistre og dataleverandører og kombinerer strukturert og ustrukturert data, flytter data mellom ulike miljøer som fra database til database, indeks til database eller database til indeks, og eksporterer data til partnere.






Den egenutviklede programvaren Bodi (business objects data integrator), håndteres av Kristin Waade. For denne løsningen vant Sesam Datavarehusprisen 2006.

Bodi benyttes også til å legge data inn i Sesams databaser, som er flere servere som kjører MySql.






Lastfordeler: Når du som sluttbruker søker på Sesam, vil du først kommunisere med denne Cisco-boks som kalles for en lastfordeler. Den fordeler trafikken videre til rundt 20 andre servere som skal jobbe videre med akkurat brukerens forespørsel.

En slik lastbalanserer ( i praksis en switch) holder til enhver tid oversikt over hvilke servere som har ledig kapasitet, og oppdager det også hurtig dersom en av serverne er nede for telling. Da vil alle kommende forespørsler fordeles til de serverne som kjører som normalt, slik at søkene alltid kan håndteres.

Diskutér denne artikkelen

Laster..
Annonse