Fast-system forstår tekst på menneskelig måte

Med 20 ansatte i München har Fast utviklet en teknologi som delvis tolker setninger og forstår innholdet slik mennesker gjør.

Datamaskiner er i utgangspunktet helt dumme – de er bare flinke til å telle. Å søke på Internett i dag er derfor en varierende opplevelse. Treffene du får servert er basert på statistisk analyse.

Å kunne forstå tekst kan lagt på vei regnes som IT-bransjens hellige gral. Forskningen på kunstig intelligens startet på 1960-tallet med dette som mål. Senere har evnen til å forstå definert selve skillet mellom maskiner og mennesker.

Etter hvert har for eksempel Microsoft Office fått grammatisk analyse, men systemet klarer ikke å forstå at dette dokumentet handler om et nytt produkt fra en konkurrent som sjefen burde lese.

Det er flere selskaper som arbeider med systemer for å gi maskiner evnen til å tolke og oppsummere store mengder nettsider og dokumenter. IBM WebFountain og norske Fast Search & Transfer er to av disse. Fast-sjef John M. Lervik hevder nå overfor digi.no at de ligger foran.

Ukjent for de fleste har Fast de siste årene bygget ut en forskningsavdeling i München som arbeider med avansert språkteknologi.

Teknikken kan brukes til en rekke typer løsninger. Fast har valgt å kommersialisert teknikkene først i programpakken Marketrac, som Fast nylig har oppgradert. Men Lervik understreker at dette er bare den første ferdige produktet.

digi.no har fått en gjennomgang av nyhetene med Lervik.

Tolkingen Fast gjør lar brukere av Marketrac følge med på holdninger oppsummert gjennom et poengsystem. Man kan be Marketrac-systemet følge gitte mapper med dokumenter, nettsteder, nyhetsoversikter, chat-kanaler og andre tekstkilder.

Resultatet (bildet over) viser Marketrac som analyserer holdninger til bilmerket Lexus. På toppen får man en samlet poengsum og på venstre side ligger historikken. Hovedbildet fylles av relevante dokumenter fra nettet. Dette gir en objektiv og jevnere bedømmelse en hva mennesker vil kunne gi.

Teknikken klarer å sortere ut og analysere ikke bare enkelte ord, men fraser i en setning. Hver for seg betyr ikke ordene "down" og "drain" så mye, men "down the drain" (å havarere/falle bunnløst) er ikke positivt.

Dette gjør at man kan si noe om tonen i dokumentet/teksten og plukke ut negative og positive begrep. Man kan også bruke løsningen til å spørre om graden av uenighet mellom forskjellige dokumenter om samme tema.

En kunde av Fast har fått tilpasset Marketrac og skrudd opp terskel hvor ekstremt et ord/uttrykk i et dokument skal være før det blir vist til brukeren. Dermed kan Marketrac fungere mer som et varslingssystem enn et analysesystem.

Fast klarer dette blant annet fordi man har klassifisert over 200.000 engelske ord og fraser i forhold til hvor sterke de er på forskjellig skala. Dette er ti ganger mer enn hva en vanlig engelskspråklig person bruker, forteller Lervik.

Fast har trent opp systemet sitt ved å kverne igjennom store deler av Internett (to milliarder nettsider) og store mengder ordbøker og synonymordbøker..

Man kan og bør også trene opp Marketrac med begreper relatert til området man er interessert i som for eksempel bransjebegreper, produktnavn og så videre. På denne måten kan systemet selv lære nye utrykk og ord som ikke allerede ligger inne, og man får fokusert løsningen på den type informasjon man selv jobber med.

Fast har et generelt rammeverk som støtter alle språk. De første kundene, inkludert USAs største telekomselskap SBC Communications, benytter engelsk, og systemet støtter totalt språkanalyse på hele 20 språk, inkludert norsk.

For å forklare den nye teknikken og unngå at kunder bruker den feil og så blir misfornøyd, understreker Fast at språkteknikken ikke er basert på menneskelig vurdering. Den er ment som et innsamlings- og varslingssystem som skal plukke ut hva som trenger oppmerksomhet.

Til toppen