Automatisk katalogisering av dokumenter med Raven

Yahoo! har femti folk som arbeider heltid med å vedlikeholde søketjenestens katalogstruktur. - Slikt kan langt på vei automatiseres med Raven, forteller Wendi Pohs i Lotus.

Pohs arbeider med Lotus' verktøy for kunnskapsforvaltning, spesielt det som har med katalogisering av dokumenter. På Lotusphere er hun opptatt av å formidle hvordan man bruker Raven Discovery Server mest mulig effektivt. Dette er det andre produktet fra Lotus' prosjekt for kunnskapsforvaltning, med kodenavn Raven. Det første er kunnskapsportalen K-station, presentert i en tidligere artikkel her fra Lotusphere. Discovery Server vil bli kommersielt tilgjengelig en gang neste år, mens K-station er lovet i november.

- Katalogisering er arbeid som har manuelle tradisjoner som går mange hundreår tilbake i tid. Eksemplet med Yahoo!, der femti mennesker arbeider heltid med å katalogisere dokumenter, viser at den manuelle metoden fortsatt nyttes innen ellers IT-pregede miljøer.

Pohs har "flere års erfaring med katalogisering enn jeg egentlig ønsker å fortelle", og har også arbeidet med Raven-prosjektet i en årrekke.

- Discovery Server kverner gjennom dokumenter og databaser og andre områder hvor det lagres informasjon. Den danner seg en oppfatning av hvordan dokumentene kan grupperes etter emne, oppretter en trestrukturert katalog, og fordeler dokumentene på denne trestrukturen.

Poenget som Pohs understreker, er at programvaren gjør grovarbeidet. Det må følges opp med en grundig gjennomgang av den maskingenererte katalogstrukturen, og med en sjekk på at dokumentene faktisk er havnet på riktig sted.

- Katalognavnene som Raven Discovery Server foreslår, oppfattes ofte som kryptiske av sluttbrukeren. Korrigeringsarbeidet må gjøres av en gruppe sammensatt av brukerbevisste, språkbevisste og IT-bevisste folk. Programvaren har et eget praktisk grensesnitt for dette opprettingsarbeidet, og det er like fort å døpe om kataloger og flytte dokumenter som med Windows' filbehandler.

Pohs mener at bruken av Raven til grovarbeidet, bidrar til større kvalitet på katalogiseringen.

- Når man skal opprette en katalogstruktur manuelt, trekker man med seg forutinntatte synspunkter på hva dokumentmassen formidler. Å la Raven gjøre grovarbeidet, bidrar til at du får bedre oversikt, og til at du gjerne ser hvordan ett og samme konsept kan uttrykkes på langt flere måter enn du var klar over.

Når man har gjennomgått og korrigert katalogstrukturen, har man også "lært" katalogiseringsprogramvaren hvordan man vil at den skal arbeide. Det betyr at man kan la programvaren ta seg av den løpende oppdateringen av katalogstrukturen og ileggingen av nye dokumenter. Da vil den også løpende foreslå nye kataloger og nye stikkord etter hvert som nye dokumenter oppstår i det området man har definert som tjenerens kildeområde.

Discovery Server brukes til mer enn katalogisering. Den vil også tilby tjenester som fritekstsøk. Videre, som følge av Lotus' erkjennelse av at kunnskapsforvaltning også har med mennesker å gjøre, vil den tilby tjenester knyttet til lokalisering av ekspertise, basert på en løpende registrering av folks gjøremål, dokumentproduksjon og liknende.

Pohs' kollega Scott Elliott sier at sammenlikningen med søkeverktøyet Autonomy Inc som genererer kompakte digitale "fingeravtrykk" av dokumenter og databaseinformasjon er absolutt relevant, men at produktene har noe forskjellig anvendelsesområder.

- Autonomy er utmerket til løpende søk. Det tilbyr verken katalogisering eller lokalisering av ekspertise.

Til toppen