Kommersielle språkmodeller er i ferd med å innta dagliglivet vårt. Vi googler etter kakeoppskrifter og treningsprogrammer, vi diskuterer tekniske problemer med chatboter, og vi lar Chat GPT hjelpe barna våre med leksene.
Disse språkmodellene, som Open AIs Chat GPT eller Googles Gemini, eies av store, internasjonale selskaper og er gjerne basert på amerikansk språk og kultur. I tillegg er de lukket. Vi som brukere vet ikke hvilket tekstmateriale som er brukt for å trene dem opp.
Men det finnes en motvekt til de kommersielle språkmodellene. Forskere i Norge og i utlandet jobber med å utvikle språkmodeller som er åpne. Det vil si at alle kan få innsyn i hvilket materiale de er trent opp på og hvordan modellen er laget. Slik kan hvem som helst plukke opp en modell og trene den videre, eller gjøre hva de vil med den.
Norsk – et lite språk

Nå har norske forskere utviklet et rammeverk som gjør at man kan teste slike frie språkmodeller i norsk språk og kultur. Man kan rett og slett la språkmodellen gå opp til eksamen i norsk.
– Vi har jobbet lenge med å trene norske språkmodeller, forteller professor Erik Velldal ved Universitetet i Oslo.
Han er medlem av språkteknologigruppen (LTG) ved Institutt for Informatikk. Sammen med Nasjonalbiblioteket og forskere ved NTNU står de bak Mimir-prosjektet som ble avsluttet i 2024. Der undersøkte de effekten av å inkludere opphavsrettsbeskyttet materiale, som aviser og bøker, i treningsgrunnlaget for språkmodellene.
– Norsk er et lite språk, hvor det generelt finnes lite ressurser tilgjengelig for språkmodellene sammenlignet med for eksempel engelsk. Det er derfor nødvendig med datasett som er tilrettelagt av mennesker, både for trening og evaluering. Dette har vi manglet for norsk språk, sier Velldal.
Både nynorsk og bokmål

Gjennom Mimir-prosjektet fikk forskerne lagt til rette store datasett basert på Nasjonalbibliotekets digitaliserte tekstsamlinger. Nå har forskerne i Oslo videreført arbeidet og laget et rammeverk, NorEval, som gjør det mulig å teste kvaliteten på norske språkmodeller.


– NorEval er den bredeste plattformen for evaluering av norske språkmodeller så langt. Her dekker vi både språkforståelse og generering, og både bokmål og nynorsk, sier forsker Vladislav Mikhailov i språkteknologigruppa.
Eksempler på hva slags type oppgaver som inngår, er oppsummering og omskriving av tekster, samt å svare på spørsmål, med spesielt fokus på kunnskap som er relevant i en norsk kontekst.
– Videre er alle datasettene i NorEval laget fra bunnen av, av mennesker. De er altså ikke basert på generert eller oversatt tekst. Det gjør dem mer pålitelige, sier Mikhailov.
Åpne og gratis
.jpg)
– Det ligner litt på å lage eksamensoppgaver for studenter, sier Lilja Øvrelid, som er forsker og leder for språkteknologigruppen.
– Da lager man oppgaver som ikke bare handler om at studenten skal gjengi tekst han eller hun har lest. Vi vil også se at de kan generalisere.


De norske språkmodellene som forskerne jobber med, er ikke bare åpne i den forstand at man kan se hvordan de er laget og hva de er trent på. De er også gratis. Nå håper forskerne på finansiering av et nasjonalt senter for språkmodeller, noe som vil kunne gi verdifull drahjelp i det videre arbeidet på veien mot å utvikle konkurransedyktige, norske produkter.
– Det er ikke slik at en språkmodell er det samme som en ferdig chatbot. Det må gjøres en del tilleggsarbeid. Men modellene er gjort tilgjengelig for forskning og utvikling, de kan lastes ned og kjøres lokalt. Neste steg blir å legge til rette for at de utvikles til ferdige produkter, for eksempel som en chatbot. Da trenger vi et slikt KI-senter, slik at de kan stå på egne ben. Men her gjenstår det mye forskning, sier Øvrelid.
Nødvendig kunnskap
De tror NorEval vil bli en viktig ressurs i denne utviklingen.
– Vi må ha kunnskap om hvor gode ulike modeller er i en norsk kontekst. Vi må kunne kvantifisere og sammenligne dem. Dette blir også viktig i sammenheng med at myndighetene skal inn og regulere, sier Velldal.
Rammeverket er også viktig for at det offentlige skal kunne ta i bruk språkmodellene.
– Dersom offentlig sektor skal kunne gjøre en risikovurdering, må de ha tilgang på kunnskap om hvor godt modellene fungerer, sier Velldal.
Mangler testing av skjønnlitterære grep
Det var Kultur- og likestillingsdepartementet som i 2023 ba Nasjonalbiblioteket iverksette Mimir-prosjektet. Der så man på hvilken effekt det hadde for språkmodellene når man lot dem trene på materiale som var dekket av opphavsrett. Da inkluderer man tekster som avisartikler og fagbøker i treningen. Resultatene viste at språkmodellene ble noe bedre når de fikk bryne seg på slike tekster.
Samtidig viste det seg at det å inkludere skjønnlitteratur faktisk gjorde modellene dårligere. Velldal mener det bare viser at man trenger bedre tester, som kan spille på styrken ved skjønnlitteratur.
– I dag har vi gode tester som baserer seg på å teste fakta. Kanskje ville modellene skåret annerledes om vi hadde hatt tester på hvor kreativt man kan bruke språket, for eksempel gjennom bruk av bilder og metaforer. Der mangler vi fortsatt gode metoder, sier Velldal.
Mimir-prosjektet har også lagt grunnlag for en kompensasjonsordning for rettighetshaverne om bruk av innhold dekket av opphavsrett i språkmodellene. Nasjonalbiblioteket har fått mandat av regjeringen til å forhandle med rettighetshaverne, og flere avtaler er inngått.
– Det vi gjør her i Norge nå, er egentlig ganske unikt. I et metaperspektiv kan man si at det handler om de norske kjerneverdiene. Vi har en høy grad av tillit i det norske samfunnet, og det at vi kan ha kollektive avtaler mellom brukerne og interessehaverne, handler om å ta vare på den tilliten, sier Øvrelid.
Artikkelen ble først publisert på Titan.uio.no

Pinlig fra Tung etter KI-skandalen