Norske forskere kontrollerer grammatikken i Word

Professor Janne Bondi Johannessen og hennes team ved Tekstlaboratoriet har vist digitoday.no grammatikkontrollen de har laget på bestilling til Microsofts Office XP.

Det er to norske "språkingeniører" - begge med språklig hovedfag - Pia Lane og Kristin Hagen, som har arbeidet med prosjektet et års tid, under ledelse av professor Janne Bondi Johannessen. Tekstlaboratoriet hører til under Institutt for lingvistiske fag, Universitetet i Oslo.

Den norske grammatikkontrollen til Office XP er laget på oppdrag fra et finsk språkteknologiselskap, Lingsoft, og vil buntes med den norsk utgaven av Office XP som lanseres 31. mai. Dette selskapet er ansvarlig for den ikke helt vellykkede norske stavekontrollen som har preget Microsofts kontorprogramvare de siste årene. Mange har undret seg over de ofte merkelige forslag denne stavekontrollen kommer med, særlig når den møter lange eller uvante sammensatte ord som ikke er i ordlisten.

Den norske versjonen av Office XP kommer til å beholde Lingsofts norske stavekontroll, selv om mange språkmiljøer i Norge er misfornøyd med den. Tekstlaboratoriet er informert om endringer, blant annet vil den ikke lenger komme med forslag ved sammensatte ord. I hvilken grad endringene imøtekommer kritikken, er ikke klart før lanseringen av Office XP. Rettskrivingsordlistene på CD-en Norsk Språk som Kunnskapsforlaget ga ut i 1997, kan brukes i stedet for stavekontrollen fra Microsoft. Dessuten finnes det en nynorsk ordliste, laget av ukeavisa Dag og Tid.

(Som eksempel på problemet med Lingsofts stavekontroll: I denne teksten er den ukjent med ordet "ukeavisa", og foreslår i stedet "ulkeavisa" og "ureavisa".)

En av årsakene til at Tekstlaboratoriet fikk oppdraget med å lage en grammatikkontroll, er at det allerede har utviklet en såkalt grammatikktagger. Dette er et program som går gjennom tekst setning for setning og ord for ord. Innen hver setning bryter det ned ord, gjenkjenner bøyninger, skiller verb, substantiv, adjektiver og så videre, og merker hvert ord med dets antatte funksjon. Algoritmene er regelbaserte, og taggeren er til en viss grad i stand til å velge korrekt når et ord formelt sett kvalifiserer til to eller flere tagger, ved å se på helheten i setningen. Det betyr at den er i stand til for eksempel å skille mellom den ubestemte artikkelen "et" og imperativformen for verbet "ete". Det må understrekes at dette foregår rent formelt. Taggeren forstår ikke et fnugg av det den leser.

- Taggeren var et viktig skritt på veien, understreker Kristin Hagen. - På den andre siden er det stor forskjell mellom en tagger som antar at teksten den analyserer er feilfri, og en grammatikkontroll som har til oppgave å varsle om feil. En tagger må gå gjennom alternative tolkninger til ordene i setningen, helt til den finner en eller flere grammatisk korrekte analyser. I en kontroll må reglene lages slik at tolkningen prøver å korrigere for typiske feil. Hvis det å endre "et" til "en" gjør setningen grammatisk korrekt, må analysen stoppe og varsle brukeren om den foreslåtte endringen. Vi måtte skrive om ganske mye av taggeren.

Sekvensen "et bordet" vil av taggeren tolkes som en oppfordring til å spise et bord. Grammatikkontrollen bør advare brukeren at man bør velge enten "et bord" eller "bordet".

Utfordringen når man skal lage en god grammatikkontroll er å tilpasse den slik at den oppdager typiske feil. Hagen og Lane har hatt stor glede av mangfoldet av norske tekster på Internett, og har gradvis bygget opp et omfattende korpus for den stadig mer finjusterte grammatikkontrollen å bryne seg mot. Forskerne sier seg "rimelig fornøyd" med det de har levert fra seg, innenfor oppdragets strenge tidsfrist. De er spent på mottakelsen og håper på tilbakemeldinger fra brukere. De håper også på en anledning til å framstille en nynorsk grammatikkontroll.

(Artiklene som er listet nedenfor, gjengir digitoday.nos erfaringer med beta-utgavene av Office XP - opprinnelig kjent som Office 10.)

Til toppen