Frode Lund Nielsen og Jeppe Lund hos Ayfie.
Frode Lund Nielsen og Jeppe Lund hos Ayfie. (Foto: Harald Brombach)
EKSTRA

Språkteknologi

Ayfie: – Ved å forstå teksten, kan du oppnå utrolig mye mer med maskinlæringsprosjektene dine

Har bygd opp store begrepsdatabaser for å forstå stammespråket i hver bransje.

Hei, dette er en Ekstra-sak som noen har delt med deg.
Lyst til å lese mer? Få fri tilgang for kun 199,- i måneden.
Bli Ekstra-abonnent »

SKØYEN, OSLO (digi.no): For tiden kan man ofte få inntrykk av at maskinlæring er svaret på det aller meste. Det kan utvilsomt brukes til mye, men samtidig er maskinlæring ofte avhengig av store datamengder. Det er det ikke alltid man har, for eksempel når målet er å hente kunnskap ut de ustrukturerte dataene, for eksempel dokumentsamlingen, til en relativt små virksomheter.

Dette er en utfordring som norske Ayfie hevder å kunne løse. Selskapet bruker også maskinlæring, men tar det først i bruk etter at innholdet har blitt strukturert og er ordenes betydning i konteksten har blitt forstått. Til dette tar selskapet i bruk det egne løsninger for lingvistikk og NLP (Natural Language Processing), altså prosessering av naturlige språk. 

Du vet mer enn du er klar over

– Det gjemmer seg mye god kunnskap i de ustrukturerte dataene dine. Hadde du visst det du egentlig vet, kunne du ha jobbet mye mer effektivt. Du ville i veldig stor grad kunnet redusere arbeidsmengden din. Det handler om å få den enkelte til å jobbe bedre, å slippe å reprodusere det noen andre har gjort, sier Jeppe Lund, som jobber i bindeleddet mellom salg og teknologi hos Ayfie.

Ayfies systemer kan analysere semantikken i teksten og forstå betydningen av tvetydige ord blant annet basert på hvor ordene forekommer i en setning.
Ayfies systemer kan analysere semantikken i teksten og forstå betydningen av tvetydige ord blant annet basert på hvor ordene forekommer i en setning. Illustrasjon: Ayfie

Han viser fram illustrasjonen over til digi.no. Den demonstrerer noe av utfordringen med å analysere naturlig språk, hvor ord og uttrykk kan skifte mening avhengig av hvordan de brukes i teksten.

Semantikk

Teksten som vises i eksempelet, omhandler et ønske om et møte. Med selskapets NLP-teknologi kan Ayfie strukturere og kategorisere innholdet i setningen, slik at det gjøres klar hvilken rolle de ulike ordene spiller. 

– Vi ser på alle former og måter du kan nevne et ord på. I eksempelet ser vi ordet «møte», som i denne sammenhengen betyr en avtale. Dette begrepet bruker vi da videre, sier Lund. 

– Vi ser at det er en person, Robert, som ønsker et møte. Først kan man tro at han oppgir et sted, siden det står «London», men her står det faktisk «London department», så da er det snakk om et helt annet begrep, et konsept vi forstår er et kontor, og at det kontoret er i London.

Ord, begreper og språk

For å få til dette, har Ayfie over mange år bygd opp ordlister for de viktigste språkene i Norden og Europa, samt det selskapet kaller for «local grammars», begrepsdatabaser for ulike bransjer som skal gjøre det mulig å forstå stammespråket i hver bransje. I den forbindelse har Ayfie satset spesielt mye på advokatbransjen.

Frode Lund Nielsen, sjef for «presales» hos Ayfie, skyter her inn at de fleste konkurrerende systemer kun leser engelsk, og at selv støtte for språk som tysk og fransk er uvanlig, for ikke å snakke om dansk, norsk og svensk.

Etter struktureringen er neste trinn å gjøre en statistisk analyse av dataene. Dette handler blant annet om å se etter mønstre, om det finnes like dokumenter på et tekstlig nivå, og om det er dokumenter som handler om det samme, men hvor det brukes ulike ord. Mye i denne fasen handler også om å forstå konsepter, som kan være beskrevet i et enkelt uttrykk, i et helt avsnitt eller i et helt dokument. 

I denne fasen er det ifølge Lund også mulig å gjøre deduplisering av dataene, noe som kan være nyttig for eksempel dersom det dreier seg om store epostsamlinger, hvor den samme eposten kanskje er sendt til mange ulike mottakere. 

– I et tilfelle hvor du mottar et sett med data som du skal granske, kan vi fjerne alt du ikke trenger å lese ved å lage en lang eposttråd, hvor du enkelt kan finne det du er ute etter og se det helhetlige bildet, uten å måtte lese absolutt alt, sier Lund. 

Maskinlæring

Vanligvis er det her de fleste maskinlæringsprosjekter begynner.

Jeppe Lund

– Det er først når dette er gjort, når vi har forstått hva dokumentene faktisk er, at vi begynner med maskinlæringen. Vanligvis er det her de fleste maskinlæringsprosjekter begynner. Men ved å forstå teksten, kan du oppnå utrolig mye mer med maskinlæringsprosjektene dine, hevder han. 

I denne sammenheng nevner Lund en parallell til chatboter. 

– Det er klart at hvis du med en gang kan fortelle chatboten hva vedkommende som stiller et spørsmål, faktisk spør om – og at den ikke er avhenger av å ha blitt stilt dette spørsmålet så så mange ganger på forhånd – så gir den verdi med en gang, sier han .

Lund mener det er mange områder hvor tilsvarende funksjonalitet vil være nyttig, for eksempel ved automatisk sortering av felles epost, slik at den videresendes til rett person basert på for eksempel hva det spørres om i eposten, også i tilfeller hvor systemet aldri tidligere har sett dette spørsmålet.

Stabile resultater

Ifølge Lund er en annen fordel med Ayfies tilnærming, framfor å gå rett på maskinlæring, at det oppnås stabile resultater på tvers av ulike datasett. 

– Selv om språket er i utvikling, skjer det ikke så raskt at vi ikke kan gjenbruke mye av plattformen vår fra kunde til kunde, og få de samme resultatene. Med bare maskinlæring vil du få forskjellige resultater, siden datasettene er forskjellige, forklarer han.

Søketeknologi

Som digi.no tidligere har omtalt, tilbyr Ayfie også søkeprodukter, etter sammenslåingen med Virtualworks i våres. Kombinasjonen av søk og språkforståelse gir ikke overraskende noen interessante muligheter. 

Et mye brukt datasett i demonstrasjoner som dette, er den mye omtalte epostsamlingen til Hillary Clinton. Her kan man ifølge Lund for eksempel søke etter «Iran» og ikke bare få opp alle eposter som handler om Iran, sortert etter relevans, men også blant annet få listet alle nevnte organisasjoner som har noe med Iran å gjøre. 

– Ønsker du å vite hva hun skriver om NATO, kan du også, i en ordsky, se konsentrasjonen av begreper som er brukt rundt bruken av ordet «NATO». Derfra kan du raskt spisse seg inn på informasjon som er relevant for deg. Det er også mulig se på temaene som er diskutert innenfor et gitt tidsrom. Igjen er dette basert på den forståelsen vi har av innholdet, forteller Lund. 

Nettsøk

Digi.no får vite at Ayfie for tiden jobber med en kunde i dag som leverer en nettjeneste som tilbyr mye informasjon om litteratur.  Denne kunden ønsker nå bedre søkefunksjonalitet. 

– Da vi gått inn, lest gjennom alt de har av innhold i denne tjenesten. Men i stedet for at du bare skulle kunne søke i dette på tradisjonelt vis, har vi ved hjelp av lingvistikken begynt å kategorisert innholdet. Så med en gang brukeren begynner å søke i denne tjenesten, så vil vedkommende få forslag om hva slags typer innhold som tilbys i tjenesten, basert på den strukturen vi har gitt all litteraturen. Dermed kan brukeren blant annet velge å få opp alle bøkene med den tematikken som brukeren egentlig var ute etter, forklarer Lund. 

Kundebehandling

Et annet kundeeksempel er et forsikringsselskap hvor kundebehandlere kan få vist all informasjonen om kunder som ringer, i ett skjermbilde. Dette skjermbildet er basert på automatiserte søk. 

Hvor ofte har du ikke ringt en leverandør for å følge opp en sak, og så må du fortelle saken din på nytt.

Jeppe Lund

– Det gjør at de får opp denne informasjonen på få sekunder, i stedet for at de må lete opp dette i de ulike kildene. Basert på de samme dataene kan vi i et tenkt scenario også se fra ordbruken i en eposttråd med en kunde, at det har begynt å dukke opp mye negative ord, mens kunden tidligere var positiv. Da kan det være at noe er i ferd med å skje, som må tas tak i,  forteller Lund. 

Løsningene til Ayfie kan oppsummere samtaler mellom for eksempel en kundeserviceavdeling og en kunde. 

– Hvor ofte har du ikke ringt en leverandør for å følge opp en sak, og så må du fortelle saken din på nytt. Med oppsummeringen kan kundebehandleren raskt få tilgang til all historikken og problematikken. Men dette forutsetter at systemet forstår kundedialogen, også angående problemer som ingen andre har hatt tidligere, sier Lund. 

Forbrukernes forventninger

Han tror de aller fleste bransjer har interesse av slike muligheter, men så langt har Ayfie særlig siktet seg inn mot advokatbransjen som oppleves som veldig moden for dette. 

– Kundene der vil sette krav til at de blir mer effektive i prosessene de gjør. De vil sette krav til at det brukes verktøy for å lese gjennom. Jeg vil tro at det samme vil skje for stadig flere bransjer etter hvert. Jeg tror også vi som forbrukere hele tiden vil få høyere forventninger til at selskaper vi er kunder hos, bruker god teknologi til å utnytte de dataene vi gir dem, enten det gjelder rådgivning, revisjon, advokattjenester eller kundebehandling, sier Lund. 

På spørsmål om hvor omfattende et prosjekt hos en mindre kunde typisk vil kunne være, sier Lund at det selvfølgelig avhenge av hva kunden ønsker å gjøre. 

– Med søketeknologien vår kan vi ganske effektivt ta for oss en liten kunde, koble oss på datakildene, få indeksert opp disse og begynt å levere gode søk nede i disse dataene. Det vil kunne ta en måned for en mindre kunde. Men det vil kunne gjøres mye gøy med disse dataene ved hjelp av for eksempel lingvistikkøvelser, noe som selvfølgelig vil kunne kreve noe mer tid, avslutter han.

Kommentarer (0)

Kommentarer (0)
Til toppen