UiO mener den nye tjenesten kan spare dem for 20 millioner kroner i året.
− Dette er ny og sjokkerende teknologi, sier Dagfinn Bergsager.
Han leder webutviklere på universitetes IT-avdeling. Med et tverrfaglig team av kodere og interaksjonsdesignere har UiO-gjengen bygd tjenesten som automatisk transkriberer intervju og tekster video.
Utviklet på sju dager
Teknoligen bak er levert av OpenAI og heter Whisper. Tjenesten kjøres lokalt på universitetes tungregnepark. Fordelen er dermed at ingen data forlater Norges grenser, slik verktøy og tjenester basert på ChatGPT gjør.
Prosjektet ble gjennomført og utviklet på rekordtid.
På kun sju dager var den tidligere oversettingstjenesten, Autotekst, skrevet om og relansert til norske skolelever, universiteter og studenter gjennom innloggingsløsningen Feide.
− Vi har aldri bydd en tjeneste så fort før. Det skyldes i all hovedsak at Whisper er lansert som åpen kildekode. Datasettene ligger på Github, sier teamlederen.
De norske universitetene har krav på seg til å tekste all video som legges ut, forteller Bergsager.
Ser sammeheng og rydder
Det har vært en svært tidkrevende jobb som har lagt hånd på mye ressurser. Google og Microsoft leverer tilsvarende teknologi, men den har ikke vært treffsikker nok.
Googles Speech-to-Text-tjeneste har eksempelvis levert tekst av gjennomgående lav kvalitet, sammenfatter teamlederen.
Whisper ser mer sammenheng i innholdet og rydder opp, forteller Bergsager.
− Det er det som er det mest revolusjonerende. Før har vi brukt enormt mye ressurser på å renskrive tekstene som blir levert. Nå er tekstingen på et helt annet nivå. Den tar til og med dialekt uproblematisk.
Det lokale datasettet til Whisper er på rundt ti gigabyte. Tekstmodellene bygges hver gang tjenesten kjører.
− Helt uforståelig
Laster du opp samme video to ganger, får du forskjellig resultat hver gang.
− Det er helt uforståelig at dette fungerer så bra og kommer allerede nå. Whisper bygger først en plan for selve transkriberingen, og etter noen minutter har vi det ferdige resultatet, sier Bergsager og fortsetter:
− Det som er mest uforståelig, er hvordan Whisper rydder opp når man snakker litt rotete, og ender opp med å tekste det som den mener du prøver å si.
Siden Whisper-tjenesten er helt ny, er den relativt komplisert å sette opp, forteller han.
Utviklerne har støttet seg på universitetets tungregnemiljø for selve konfigureringen av tjenesten og datautvekslingen. Utregningene som ligger bak den automatisk genererte tekstingen kjører på grafikkprossorparken til de norske universitetene.
Regneoperasjonen er tunge og krever svært mye datakraft.

Tekster 20 timer i timen
Heldigvis har universitetet mye grafikkapasitet tilgjengelig. Det er nesten ingen i de norske forskningsmiljøene som benytter seg av disse ressursene i dag.
AI-løsningen klarer å tekste rundt 20 timer video i timen med ressursene som er satt av til formålet.
Bergsager beskriver ressurstilgangen som ubegrenset.
− På CPU-anleggene våre er det uendlig med kø. De kjører med 100 prosent kapasitet hele tiden, men på GPU-siden har vi mye å gå på. Tilgangen her er mye større enn etterspørselen, sier han.
Tekstingen som i dag leveres krever nesten ikke etterarbeid. I mange tilfeller kan den legges ut direkte uten finpuss.
−Alle vil ha tilgang
Dermed kan alle som tekster video eller transkriberer lyd spare masse tid og ressurser, lover han.
− Studenter og forskere har masse intervjuer de trenger å tanskribere. Dette er en veldig stor greie for dem.
Siden tjenesten ble lansert i begynnelsen av februar har ryktene spredd seg via jungeltelegrafen.
Universitetet i Oslo får daglig forespørsler om tilgang til tjenesten fra offentlig og privat sektor.
Blant annet har IT-avdelingen til Nav vært svært på hugget, forteller Bergsager.
− Det kan bli aktuelt å tilby den åpent til alle siden vi får så mange henvendelser. Det kan skje om kort tid, eller aldri – det har vi ikke funnet ut av enda.
− Siden utviklingen går så fort vet vi jo ikke om dette er noe alle kan kjøre lokalt om bare noen måneder, men vi ser definitivt på muligheten for å åpne opp tjenesten for flere, sier han.