Lær av teksten - uten å lese den

SAS Institute kunngjør Text Miner, et ledelse- og analyseverktøy som fordøyer gigabytes med ustrukturert tekst, og gir en strukturert oversikt over innholdet.

Det er mange situasjoner der ledere og konsulenter kunne ønske seg muligheten for å sette seg inn i store mengder tekst uten å lese alle dokumentene. Dette gjelder spesielt i situasjoner der det er om å gjøre å skaffe seg en oversikt, ikke sette seg inn i enkeltdetaljer, på samme måte som det er den endelige omsetningen som teller, og ikke prisen på hver eneste vare man har solgt.

Typiske eksempler er spørreundersøkelser der viktige tilbakemeldinger går tapt fordi ingen gidder å sette seg inn i det kunder og brukere skriver i rubrikken "andre bemerkninger", trender man går glipp av fordi den helhetlige oversikten over salgsprospekter alltid kommer langt på etterskudd, eller søk på Internett eller i andre store databaser der man vet det ligger noe interessant blant alle de 2000 treffene, men der man ikke har verktøy som kan redusere dem til hundre eller et annet overkommelig tall.

Fagfeltet som skal finne løsninger på slike problemer, er døpt "text mining" - graving i tekst på samme måte som "data mining" graver i strukturerte og merkede tall.

Analysespesialisten SAS Institute har kunngjort et nytt produkt, Text Miner, som skal selges som tilleggsmodul til det omfattende verktøyet Enterprise Miner fra og med sommerens forestående oppgradering til SAS 9.0 System. Text Miner vil tilbys til versjon 4.2 og 5.0 av Enterprise Miner.

I bakgrunnsmaterialet der Text Miner beskrives, understreker SAS Institute den grunnleggende forskjellen mellom verktøy som skal analysere store tekstmengder, og søkeverktøy som skal finne fram til dokumenter med den informasjonen man er ute etter.

Analyseverktøyet gir ikke tilbakemelding i form av pekere til utvalgte dokumenter, men i form av informasjon om hva den samlede dokumentmengden inneholder. Analyseverktøy for tall skal formidle innsikt i store datamengder. Tilsvarende skal analyseverktøy for tekst gi innsikt i store tekstmenger, ved å avdekke viktige momenter og tendenser. Et annet poeng er at tekstanalyseverktøyet skal kunne brukes til å plukke ut spesifikke elementer i individuelle dokumenter, og knytte dem til strukturerte data, for eksempel personopplysninger om den sam har skrevet teksten.

Et eksempel fra SASs bakgrunnsmateriale viser til en pasientundersøkelse fra en legemiddelfabrikant der 500 pasienter ble bedt om å beskrive symptomer for eventuelle bivirkninger. Text Miner identifiserte en klynge på 50 pasienter som klaget over kvalme, dårlig matlyst og andre plager. Dette ble kjørt mot opplysninger fra den mer strukturerte delen av undersøkelsen, og avdekket etter hvert følgende kjensgjerning: Kvinner over 40 er spesielt følsomme for høye doser av det aktuelle legemiddelet. Dette førte igjen til en revidert merking av legemiddelet, for å gjøre legene oppmerksomme på nettopp dette forholdet.

Et annet eksempel viser til et prosjekt hos dataprodusenten Compaq, der man samlet inn 2,5 gigabytes med tekstnotater og e-post fra salgskorpset. Ingen i Compaqs ledelse har tid eller anledning til å gå gjennom 2,5 gigabytes med tekst - det svarer til vel en million sider. Men den automatiske gjennomgangen avslørte svært interessant informasjon som kom til nytte i markedsføringstiltak mot spesifikke kundegrupper.

Etter forhåndsomtalen å dømme, bærer Text Miner et løfte om effektive måter å trekke informasjon ut av tekst uten at den må leses av bestemte personer, og at den kan være spesielt effektiv i forbindelse med andre verktøy for dataanalyse.

I pressemeldingen peker SAS på at det kan være spesielt gunstig å bruke Text Miner på en løpende analyse av innkommende eller utgående e-post. Det kan selvfølgelig være hendig for avlyttere i USA som da kan få automatiserte varsler om terroristisk e-post, eller for kinesiske internettilbydere som nylig ble pålagt å sørge for å fange opp e-post med myndighetskritisk innhold.

SAS er også opptatt av at Text Miner kan brukes til å avdekke hvorvidt folk lyver eller ikke når de skriver e-post. Dette er avhengig av teorier om løgnavdekkende tekstmønstre. Text Miner kan avdekke disse mønstrene, men det ligger ikke integrert i verktøyet å vurdere hva de faktisk betyr. Ellers hadde det vært enkelt å transkribere alt ekteparet Orderud har fortalt i avhør og så mate det inn i Text Miner for å få svaret på om de var skyldige eller ikke. På den andre siden er det også sannsynlig at en nærmere analyse av språket i disse avhørene, ved hjelp av Text Miner eller annen kunnskapsteknologi, kunne gitt svært interessante momenter.

Til toppen