BEDRIFTSTEKNOLOGI

Mer fokus på innhold i Googles sorteringsalgoritme

Forskere prøver ut hvordan Googles algoritme for ordning av treff kan gjøres både raskere og mer fokusert på innhold.

23. mai 2003 - 16:02

I søketjenesten Google er det en spesiell algoritme som ligger til grunn for hvordan trefflisten sorteres når du har gjennomført et søk: PageRank. Siden et typisk søk gjerne fører til mange hundre treff, og de færreste gidder å lete gjennom flere enn de første treffene, er PageRank – oppdaget i 1998 og patentert i 2001 – av stor betydning for både søkere og nettpublikasjoner. Da Google var ny, var det PageRank som sørget for at relevante treff ble vist øverst, i motsetning til konkurrenten AltaVista der rekkefølgen virket tilfeldig. At AltaVista i dag er historie, kan i stor grad tilskrives virkningen av PageRank.

PageRank ble skapt på Stanford University av studentene Larry Page og Sergey Brin. De mente at treffsidene burde rangeres etter hvor objektivt "viktige" de er, og fant ut at mengden lenker inn til en gitt side er et brukbart mål på sidens viktighet. Dette kriteriet ble utvidet med et annet som går ut på at lenker fra viktige sider tillegges større vekt enn lenker fra sider som selv ikke har så mange inngående lenker. Tallet på lenker inn og ut fra anslagsvis tre milliarder sider på web telles minst en gang i måneden, og rankingverdien til hver eneste side beregnes. Sider på nyhetsnettsteder gjennomgår denne prosessen til dels langt oftere.

Det finnes andre kriterier for Googles ranking av treff, men disse to – antall inngående lenker og viktigheten av de inngående lenkene – er de viktigste. Populære sider kommer tidlig på trefflisten, og inngående lenker fra for eksempel Yahoo! teller mer enn inngående lenker fra personlige hjemmesider til anonyme individer.

Kritiske røster advarer mot PageRank, fordi algoritmen fører til at Google i praksis prioriterer nettsteders popularitet framfor deres innholdsmessige relevans. Det innebærer at store nettsteder har mye lettere for å vokse seg enda større enn små nettsteder har for å bli store, selv om disse har informasjon som er mer relevante enn de sidene som PageRank fører øverst på trefflisten. Det innebærer videre at helt ny informasjon kommer lenger nede på trefflisten enn gammel informasjon om samme emne, fordi siden sannsynligvis ennå ikke har så mange inngående lenker. Dette har også kommersiell betydning, siden nettsteders reklameinntekter er avhengig av hvor mange som leser dem.

I artikkelen PageRank: Google's Original Sin peker Daniel Brandt, leder for den ideelle amerikanske organisasjonen Public Information Research, hvordan dette forskyver innholdskonkurransen på web mot store etablerte websteder, og hvordan nettsteders struktur legges om for å få flest mulige sider med så høy PageRank-faktor som mulig. Brandt peker også på at større vektlegging av innhold vil til en viss grad kunne korrigere for skjevhetene forårsaket av PageRank.

Kritikken mot Google og PageRank har også ført til opprettelsen av det kritiske nettstedet Google Watch, som blant annet tilbyr annonsefrie søk over Google og FAST/All-the-Web, der alle felles treff fra hver av tjenestenes første hundre treff listes i en egen seksjon.

Forskningen som pågår på Stanford University for å forbedre PageRank, ser til en viss grad ut til å ta denne kritikken alvorlig. Hjemmesidene til arvtakerne til Page og Brin, Taher H. Haveliwala og Sepandar Kamvar, har pekere til en rekke nye utredninger om hvordan både utvalget og hastigheten til PageRank kan forbedres.

En av de mest spennende utredningene er de to forskernes felles artikkel Topic-Sensitive PageRank, der de nettopp prøver å knytte siderankingen til innholdsrelevans. Ideen er å ikke beregne bare ett rankingtall for hver side, men mange, det vil si ett for hvert av flere forhåndsdefinerte emner eller stikkord. Artikkelen redegjør for problemene dette medfører gitt et forholdsvis begrenset antall emner. Konklusjonen er at arbeidet er lovende, og at det kan bli mulig å forhåndskalkulere også innholdsbestemte rankingverdier for kombinasjoner av stikkord eller emner. Haveliwala og Kamvar arbeider videre med å øke innholdets betydning ved å øke tallet på representative emner.

Annen forskning tar for seg metoder for å øke hastigheten i beregningen av rankingverdier. Haveliwala og Kamvar og andre ser blant annet for seg iterative metoder som gir stadig bedre tilnærminger til de faktiske rankingveridene til hver side, og som er tilstrekkelig nøyaktige på rundt halve tiden. I dag tar det rundt en uke for Google å beregne rankingverdien til samtlige tre milliarder sider på web. Kamvar antar at den iterative metoden vil kunne redusere dette tidsrommet med en tredel.

Langt mer lovende på hastighetssiden er en teknikk kalt "BlockRank", der utgangspunktet er det faktum at nettsider gjerne opptrer i blokker, fordi 80 prosent av alle lenker viser til andre sider på samme nettsted. Ifølge Kamvar kan dette gi en hastighetsøkning på opptil tre hundre prosent. En tredje metode under utforskning, "Adaptive PageRank" kan redusere tallet på regneoperasjoner og gi en hastighetsøkning på ytterligere 50 prosent. En kombinasjon av alle disse metodene skulle gi en fem dobling av dagens søkehastighet.

Del
Kommentarer:
Du kan kommentere under fullt navn eller med kallenavn. Bruk BankID for automatisk oppretting av brukerkonto.