BEDRIFTSTEKNOLOGI

Oppgradert søkemotor fra CognIT

CognIT er klar med tredje generasjon av søketeknologien Corporum med semantisk analyse.

6. mars 2006 - 13:11

CognIT er klar til å lansere produkter med sin seneste «Kernel 3»-teknologi, det vil si tredje generasjon av selskapets Corporum-teknologi for tekstanalyse, som ble lansert i 2000.

Kernel 3 innfører dypere språkanalyse som vil støtte indeksering, metatagging, ekstraksjon av informasjon, automatiske sammendrag og kategorisering.

Kernel 3 inneholder også elementer fra CognITs KunDoc-prosjekt som støttes av Kunst-programmet til Norges forskningsråd for utvikling av språkteknologi. Det innebærer blant annet kryssreferanser mellom substantiv og pronomen i en tekst, kjent i språkteknologien som anafor oppløsning. Poenget med dette er å fange opp nøkkelbegreper som bare nevnes én gang i en artikkel, og deretter bare refereres ved pronomener som han, de eller den.

– Ved å håndtere anafore tilknytninger vil selv den enkleste frekvensbaserte søkemotor forbedre både relevans og gjenfinning av dokumenter, forklarer CognITs språkekspert Till Lech i en pressemelding.

Meldingen gir en prøve på hva den nye generasjonen av søkemotorteknologi kan tilby, når den anvendes på denne meldingen fra CNN om det amerikanske presidentbesøket til Afghanistan nylig. Meldingen ser slik ut:

KABUL, Afghanistan (CNN) -- U.S. President George W. Bush made a surprise visit to Afghanistan on Wednesday, his first to the country where the Taliban were ousted following the September 11, 2001 terrorist attacks.

He was expected to meet with Afghan President Hamid Karzai during the five-hour visit to the capital Kabul and Bagram Air Base, the main center for U.S. troops in the country.

The visit was not announced officially until Air Force One landed at Bagram, in an effort to reduce the risk of any attempt on his life.

Den nye teknologien vil gjøre det mulig for en datamaskin å spesifisere hva en slik nyhet faktisk handler om, forklarer CognIT. Det identifiserte temaet her ville være «Surprise visit to Afghanistan» som vil kunne katalogiseres under «visit». Den besøkende er «President George W. Bush» og den besøkte er «Afghan President Hamid Karzai». De mest beskrivende metataggene som systemet vil tilby, blir følgelig «visit», «Kabul», «Hamid Karzai» og «George W. Bush».

Systemet vil videre forstå at «he» i andre avsnitt vil referere til «George W. Bush» og slutte at det er en tilsvarende referanse mellom «George W. Bush» og «U.S. President».

Systemet kan plukke ut navn selv om de ikke står i en ordliste. Det gjør det mulig å bygge opp gallerier av personer og steder, og knytte disse til blant annet handlinger.

I eksempler ovenfor vil «Afghanistan», «Kabul», «Bagram Air Base» så vel som «George W. Bush», «Hamid Karzai», «Taliban» og «Air Force One» bli identifisert og knyttet til hverandre, ifølge CognIT. Når flere dokumenter som er knyttet til samme kontekst eller emne analyseres, vil det være mulig å identifisere og akkumulere viktige relasjoner som ellers ville være vanskelig å få øye på.

CognIT mener denne typen teknologi vil bygge opp innsikt i relasjoner, og være verdifull for blant annet forretningsanalytikere og etterforskere. Den kan også komme til nytte for å presentere søkeresultater på web på en mer samlende og fornuftig måte enn det dagens søkemotorer presterer.

    Les også:

Del
Kommentarer:
Du kan kommentere under fullt navn eller med kallenavn. Bruk BankID for automatisk oppretting av brukerkonto.