Nå kan chatbotene ta eksamen i norsk

Et helt nytt rammeverk gjør det mulig å trene opp og teste språkmodellenes ferdigheter i bokmål og nynorsk. Det kan bane vei for nye, norske KI-systemer.

De norske språkmodellene som forskerne jobber med, er ikke bare åpne i den forstand at man kan se hvordan de er laget og hva de er trent på. De er også gratis. Illustrasjonsfoto: Colourbox

Ingebjørg Hestvik, Titan.uio.no

2. juni 2025 - 15:15

Seksjonen Fra forskning består av saker som er skrevet av ansatte i Sintef, NTNU, Universitetet i Oslo, Oslo Met, Universitetet i Agder, UiT Norges arktiske universitet, Universitetet i Sørøst-Norge og NMBU.

Kommersielle språkmodeller er i ferd med å innta dagliglivet vårt. Vi googler etter kakeoppskrifter og treningsprogrammer, vi diskuterer tekniske problemer med chatboter, og vi lar Chat GPT hjelpe barna våre med leksene.

Disse språkmodellene, som Open AIs Chat GPT eller Googles Gemini, eies av store, internasjonale selskaper og er gjerne basert på amerikansk språk og kultur. I tillegg er de lukket. Vi som brukere vet ikke hvilket tekstmateriale som er brukt for å trene dem opp.

Men det finnes en motvekt til de kommersielle språkmodellene. Forskere i Norge og i utlandet jobber med å utvikle språkmodeller som er åpne. Det vil si at alle kan få innsyn i hvilket materiale de er trent opp på og hvordan modellen er laget. Slik kan hvem som helst plukke opp en modell og trene den videre, eller gjøre hva de vil med den.

Norsk – et lite språk

– Vi må ha kunnskap om hvor gode ulike modeller er i en norsk kontekst, sier Erik Velldal. Foto: Gina Aakre/UiO

Nå har norske forskere utviklet et rammeverk som gjør at man kan teste slike frie språkmodeller i norsk språk og kultur. Man kan rett og slett la språkmodellen gå opp til eksamen i norsk.

– Vi har jobbet lenge med å trene norske språkmodeller, forteller professor Erik Velldal ved Universitetet i Oslo.

Han er medlem av språkteknologigruppen (LTG) ved Institutt for Informatikk. Sammen med Nasjonalbiblioteket og forskere ved NTNU står de bak Mimir-prosjektet som ble avsluttet i 2024. Der undersøkte de effekten av å inkludere opphavsrettsbeskyttet materiale, som aviser og bøker, i treningsgrunnlaget for språkmodellene.

– Norsk er et lite språk, hvor det generelt finnes lite ressurser tilgjengelig for språkmodellene sammenlignet med for eksempel engelsk. Det er derfor nødvendig med datasett som er tilrettelagt av mennesker, både for trening og evaluering. Dette har vi manglet for norsk språk, sier Velldal.

Både nynorsk og bokmål

At datasettene ikke er basert på generert eller oversatt tekst, gjør dem mer pålitelige, påpeker Vladislav Mikhailov. Foto: Gina Aakre/UiO

Gjennom Mimir-prosjektet fikk forskerne lagt til rette store datasett basert på Nasjonalbibliotekets digitaliserte tekstsamlinger. Nå har forskerne i Oslo videreført arbeidet og laget et rammeverk, NorEval, som gjør det mulig å teste kvaliteten på norske språkmodeller.

– NorEval er den bredeste plattformen for evaluering av norske språkmodeller så langt. Her dekker vi både språkforståelse og generering, og både bokmål og nynorsk, sier forsker Vladislav Mikhailov i språkteknologigruppa.

Eksempler på hva slags type oppgaver som inngår, er oppsummering og omskriving av tekster, samt å svare på spørsmål, med spesielt fokus på kunnskap som er relevant i en norsk kontekst.

– Videre er alle datasettene i NorEval laget fra bunnen av, av mennesker. De er altså ikke basert på generert eller oversatt tekst. Det gjør dem mer pålitelige, sier Mikhailov.

Åpne og gratis

Lilja Øvrelid, som leder språkteknologigruppa ved UiO, håper nå på opprettelse av et nasjonalt senter for språkmodeller. Foto: UiO

– Det ligner litt på å lage eksamensoppgaver for studenter, sier Lilja Øvrelid, som er forsker og leder for språkteknologigruppen.

– Da lager man oppgaver som ikke bare handler om at studenten skal gjengi tekst han eller hun har lest. Vi vil også se at de kan generalisere.

De norske språkmodellene som forskerne jobber med, er ikke bare åpne i den forstand at man kan se hvordan de er laget og hva de er trent på. De er også gratis. Nå håper forskerne på finansiering av et nasjonalt senter for språkmodeller, noe som vil kunne gi verdifull drahjelp i det videre arbeidet på veien mot å utvikle konkurransedyktige, norske produkter.

– Det er ikke slik at en språkmodell er det samme som en ferdig chatbot. Det må gjøres en del tilleggsarbeid. Men modellene er gjort tilgjengelig for forskning og utvikling, de kan lastes ned og kjøres lokalt. Neste steg blir å legge til rette for at de utvikles til ferdige produkter, for eksempel som en chatbot. Da trenger vi et slikt KI-senter, slik at de kan stå på egne ben. Men her gjenstår det mye forskning, sier Øvrelid.

Nødvendig kunnskap

De tror NorEval vil bli en viktig ressurs i denne utviklingen.

– Vi må ha kunnskap om hvor gode ulike modeller er i en norsk kontekst. Vi må kunne kvantifisere og sammenligne dem. Dette blir også viktig i sammenheng med at myndighetene skal inn og regulere, sier Velldal.

Rammeverket er også viktig for at det offentlige skal kunne ta i bruk språkmodellene.

– Dersom offentlig sektor skal kunne gjøre en risikovurdering, må de ha tilgang på kunnskap om hvor godt modellene fungerer, sier Velldal.

Mangler testing av skjønnlitterære grep

Det var Kultur- og likestillingsdepartementet som i 2023 ba Nasjonalbiblioteket iverksette Mimir-prosjektet. Der så man på hvilken effekt det hadde for språkmodellene når man lot dem trene på materiale som var dekket av opphavsrett. Da inkluderer man tekster som avisartikler og fagbøker i treningen. Resultatene viste at språkmodellene ble noe bedre når de fikk bryne seg på slike tekster.

Samtidig viste det seg at det å inkludere skjønnlitteratur faktisk gjorde modellene dårligere. Velldal mener det bare viser at man trenger bedre tester, som kan spille på styrken ved skjønnlitteratur.

– I dag har vi gode tester som baserer seg på å teste fakta. Kanskje ville modellene skåret annerledes om vi hadde hatt tester på hvor kreativt man kan bruke språket, for eksempel gjennom bruk av bilder og metaforer. Der mangler vi fortsatt gode metoder, sier Velldal.

Mimir-prosjektet har også lagt grunnlag for en kompensasjonsordning for rettighetshaverne om bruk av innhold dekket av opphavsrett i språkmodellene. Nasjonalbiblioteket har fått mandat av regjeringen til å forhandle med rettighetshaverne, og flere avtaler er inngått.

– Det vi gjør her i Norge nå, er egentlig ganske unikt. I et metaperspektiv kan man si at det handler om de norske kjerneverdiene. Vi har en høy grad av tillit i det norske samfunnet, og det at vi kan ha kollektive avtaler mellom brukerne og interessehaverne, handler om å ta vare på den tilliten, sier Øvrelid.

Artikkelen ble først publisert på Titan.uio.no

Med et vingespenn på 2,3 meter skal Space Norways 93 kilo tunge Mimir 1-satellitt selge eksperiment-kapasitet 600 kilometer over jordskorpa.

Les også:

Space Norways første egenutviklede satellitt blir en flyvende lab

fra forskning Kunstig intelligens språkmodeller

Kommentarer

Du må være innlogget hos Ifrågasätt for å kommentere. Bruk BankID for automatisk oppretting av brukerkonto. Du kan kommentere under fullt navn eller med kallenavn.

Se flere jobber

Utvikler - digitale løsninger i utlendingsforvaltningen

Utlendingsnemnda (UNE)

Oslo

2. aug.

Senior IT-administrator

IT-direktør

Få annonsen din her og nå frem til de beste kandidatene

Lag en bedriftsprofil

En tjeneste fra