Russisk teknologi skal gi superintelligente søk

Norske Stochasto satser på å markedsføre en ny søketeknologi utviklet av 30 russiske forskere.

Stochasto ASA blir i dag lagt inn i Fondsmeglerforbundets informasjonssystem for unoterte aksjer. Utgangskursen på 55 kroner verdsetter selskapet til i overkant av 70 millioner kroner. Finanskjendis Riulf R. Rustad er styreleder og aksjonær. Daglig leder er Jan Husby, utdannet informatiker.

Stochasto har tre typer produkter, som i dag alle er begrenset til det russiske markedet. De er utviklet av en gruppe på 30 russiske forskere. Hovedproduktet er et system som analyserer tekst og legger materialet til rette for målrettede søk som kan formuleres på et naturlig språk. De to andre produkttypene har med virusvern og kryptering å gjøre.

Søketeknologien skal «kombinere indeksens hastighet med funksjonaliteten til semantisk analyse». Hensikten er å begrense søkeresultatene til dokumentene som er relevante for søkeren, samtidig som søket går like raskt som med indeksbaserte søkemotorer som Fast og Google.

Dette gjøres ved at dokumentene det skal søkes i, underkastes en form for semantisk analyse. På grunnlag av denne analysen bygges det opp en indeks av dokumentenes innhold, kombinert med syntaktisk og morfologisk informasjon. Det gjøres med andre ord forskjell på ordklasser som substantiver, adjektiver og preposisjoner, og systemet skjønner at «trekke» og «trukket» er bøyninger av samme ord.

– Det nye med vår teknologi er ikke at vi bruker semantisk analyse, presiserer administrerende direktør Jan Husby til digi.no. – Det er en rekke søkeløsninger som anvender semantisk analyse i stedet for å indeksere ord. Det nye med oss er at vi legger resultatet av den semantiske analysen inn i en indeks. Vi kan gjøre en kategorisering av søkemassen, men det er ikke nødvendig.

Søk i denne indeksen skal formuleres på naturlig språk. Spørringen underkastes en semantisk og syntaktisk analyse tilsvarende den som er brukt for å bygge opp indeksen. Analysen av spørringen skal avdekke hva spørsmålsstilleren egentlig er ute etter. Søket foregår ikke ved å sammenlikne strenger av bokstaver, men ved å sammenlikne noe som skal gjenspeile spørsmålets og dokumentenes reelle innhold. Hvordan ordene er bøyd i spørringen og i søkemassen spiller ingen rolle, de blir gjenkjent likevel. Dersom søket ikke lykkes å finne dokumenter med de nøyaktige ordene gitt i spørsmålet, velger systemet synonymer til de viktigste ordene i spørsmålet og søker en gang til. Systemet evaluerer samsvaret mellom søk og treff etter semantiske kriterier, og kan innstille treff i flere nivåer, med utgangspunkt i hvordan spørsmålet er formulert.

– Indeksen vår er to til tre ganger så stor som indekser til nøkkelordsbaserte systemer, sier Husby. – Det vil si at søkene våre kan ta tilsvarende lenger tid. Vi har mye å gjøre når det gjelder optimalisering, og vi kan vente oss betydelige kortere søketider når det er gjort. På den andre siden kan 50 relevante treff på 1,5 sekunder være svært greit, i forhold til 10.000 treff på 0,5 sekunder for nøkkelordsbaserte systemer. Du bruker gjerne mer enn et sekund på å skille ut de 9.950 irrelevante treffene.

Stochasto opplyser at etter tre års utvikling, er systemet klart til å demonstreres mot et russisk-språklig korpus. Å implementere systemet på andre språk kan ta fra tre til seks måneder.

– Det er et stort behov for treffsikre søkemotorer. Nøkkelordsystemer gir generelt sett overveldende mengder med treff, og du kan bruke lang tid på å søke gjennom trefflisten. I bransjer med veldig homogen tekst, fungerer ikke nøkkelordsøk i det hele tatt. Blant spesialister som er å jakt etter svært spesifikk informasjon, er det et sterkt behov for nye løsninger.

Flere selskaper tilbyr søketeknologi som skal være i stand til å analysere søkemasse og spørringer ut fra innhold. Blant dem Stochasto nevner spesielt som konkurrent er Autonomy. De teknologiene virker nokså forskjellige. Autonomy trenger for eksempel ikke å tillempes spesielt per språk, men beskriver virkemåten som at det tas et slags «fingeravtrykk» av bitmønstrene i spørring og søkemasse, og at trefflisten gjengir dokumentene der avtrykkene stemmer best overens med spørringens avtrykk. Det innebærer at Autonomy ikke foretar den semantiske og syntaktiske analysen som ligger i Stochastos teknologi.

– Den egentlige russiske lanseringen av søkemotoren vår kom i forbindelse med en messe i månedsskiftet mars-april i år. Det ga støtet til flere pilotkunder, dels bedrifter, dels kontorer innen det offentlige. Byplanskontoret til Moskva by er blant brukerne.

Stochastos kontor i Moskva er vesentlig innrettet mot utvikling. Oslo-kontoret arbeider nå med den engelskspråklige versjon, som det satser på å ha en kommersiell utgave av i løpet av første kvartal 2005.

– Den første målgruppen blir bedrifter med spesielle behov for søk, særlig de med store mengder homogen informasjon. I mange tilfeller vil det dreie seg om selskaper som ikke bruker stikkordssøk, fordi det gir ikke relevante treff.

Husby mener Stochastos søkemotor vil kunne egne seg for å drive dagens store internettbaserte søketjenester.

– Teknologien vår er fullt ut skalerbar. Men vi er først og fremst en teknologileverandør. Vi har ikke som mål å bygge opp en internettsøketjeneste. Utgangspunktet vårt er å selge teknologi og programvare. Eventuelle kjøpere kan sette i gang det de vil.

Å demonstrere teknologien på en engelskspråklig søkemasse er Stochastos første store milepæl.

– Når det gjelder andre språk har vi ikke konkludert med noe foreløpig. Vi vurderer flere andre språk, også ikke-vestlige språk, sier Husby.

Antivirusteknologien til Stochasto kan oppfattes som en forenklet anvendelse av søketeknologien. Virusvern i dag foregår i hovedsak ved at man kjenner igjen «signaturen» til et bestemt virus fra en omfattende liste over kjente virus. Metoden fungerer så lenge man ikke støter på ukjente virus. Den norske antivirusleverandøren Norman har utviklet en teknologi kalt «Sandbox» der mistenkelig kode kjøres i en lukket virtuell PC, og avsløres når den oppfører seg virusaktig. Teknologien har vist seg svært effektiv for å avsløre ukjente virus.

I stedet for å la viruset avsløre seg selv ved å kjøre i et avseglet rom, tar Stochasto sikte på å avdekke virusaktig oppførsel ved å analysere selve koden og hvordan den forholder seg til operativsystemet. Teknikken er avhengig av en omfattende database over typiske programfunksjoner, og av en kunnskapsbase som kan hindre systemet fra feilaktig å identifisere en kjent applikasjon som et virus. Trass i dette mener Stochasto at teknikken vil kreve forholdsvis begrensede ressurser i PC-en eller serveren. Selskapet opplyser at det er solgt noen få tusen eksemplarer av et PC-produkt som er i stand til å avdekke ondsinnet kode i makroer, skripter og annen tolket programvare. En anvendelse som kan brukes mot exe- og dll-filer er under utvikling.

Krypteringsteknologien er dels innrettet mot enklere og mer effektiv nøkkelhåndtering, dels beregnet på å utfylle søketeknologien ved å tillate søk i krypterte dokumentmengder. Ved søk i krypterte dokumenter unngår man å dekkryptere dokumentene, og resultatet leveres kryptert, slik at bare den som har rett til å dekryptere dokumenter kan dekryptere trefflisten.

Til toppen