Abonner
DIGITALISERING OG OFFENTLIG IT

Bygde tjeneste som sparer dem for 20 millioner i året: − Dette er ny og sjokkerende teknologi

Universitet i Oslo (UiO) har tatt i bruk en ny, revolusjonerende tjeneste. Med nyvinningen sparer de både tid og millioner av kroner.

Teamet bak OpenAI-teknologien som kjører lokalt på Universitetet i Oslos servere. Fra venstre Håvard Helmersen, Aleksander Erichson, Katrine Nordeide Kuiper, Tor Magne Kippersund, Magnus Alderslyst Nygaard, Egil Elias Ravnå Birkeland og Dagfinn Bergsager (foran).
Teamet bak OpenAI-teknologien som kjører lokalt på Universitetet i Oslos servere. Fra venstre Håvard Helmersen, Aleksander Erichson, Katrine Nordeide Kuiper, Tor Magne Kippersund, Magnus Alderslyst Nygaard, Egil Elias Ravnå Birkeland og Dagfinn Bergsager (foran). Foto: Universitetet i Oslo
Dette er en Ekstra-sak som noen har delt med deg. Abonnere for å få full tilgang til alt innhold.

UiO mener den nye tjenesten kan spare dem for 20 millioner kroner i året.

− Dette er ny og sjokkerende teknologi, sier Dagfinn Bergsager.

Han leder webutviklere på universitetes IT-avdeling. Med et tverrfaglig team av kodere og interaksjonsdesignere har UiO-gjengen bygd tjenesten som automatisk transkriberer intervju og tekster video.

Utviklet på sju dager

Teknoligen bak er levert av OpenAI og heter Whisper. Tjenesten kjøres lokalt på universitetes tungregnepark. Fordelen er dermed at ingen data forlater Norges grenser, slik verktøy og tjenester basert på ChatGPT gjør.

Prosjektet ble gjennomført og utviklet på rekordtid.

På kun sju dager var den tidligere oversettingstjenesten, Autotekst, skrevet om og relansert til norske skolelever, universiteter og studenter gjennom innloggingsløsningen Feide. 

− Vi har aldri bydd en tjeneste så fort før. Det skyldes i all hovedsak at Whisper er lansert som åpen kildekode. Datasettene ligger på Github, sier teamlederen.

Les også

De norske universitetene har krav på seg til å tekste all video som legges ut, forteller Bergsager. 

Ser sammeheng og rydder

Det har vært en svært tidkrevende jobb som har lagt hånd på mye ressurser. Google og Microsoft leverer tilsvarende teknologi, men den har ikke vært treffsikker nok.

Googles Speech-to-Text-tjeneste har eksempelvis levert tekst av gjennomgående lav kvalitet, sammenfatter teamlederen.

Whisper ser mer sammenheng i innholdet og rydder opp, forteller Bergsager.

− Det er det som er det mest revolusjonerende. Før har vi brukt enormt mye ressurser på å renskrive tekstene som blir levert. Nå er tekstingen på et helt annet nivå. Den tar til og med dialekt uproblematisk.

Det lokale datasettet til Whisper er på rundt ti gigabyte. Tekstmodellene bygges hver gang tjenesten kjører.

− Helt uforståelig

Laster du opp samme video to ganger, får du forskjellig resultat hver gang.

− Det er helt uforståelig at dette fungerer så bra og kommer allerede nå. Whisper bygger først en plan for selve transkriberingen, og etter noen minutter har vi det ferdige resultatet, sier Bergsager og fortsetter:

− Det som er mest uforståelig, er hvordan Whisper rydder opp når man snakker litt rotete, og ender opp med å tekste det som den mener du prøver å si.

Siden Whisper-tjenesten er helt ny, er den relativt komplisert å sette opp, forteller han.

Utviklerne har støttet seg på universitetets tungregnemiljø for selve konfigureringen av tjenesten og datautvekslingen. Utregningene som ligger bak den automatisk genererte tekstingen kjører på grafikkprossorparken til de norske universitetene.

Regneoperasjonen er tunge og krever svært mye datakraft.

Betzy er Norges kraftigste superdatamaskin. Den er dekorert med noe av forskningen til den norske matematikeren den er oppkalt etter. Universitetet i Oslo har ubegrenset med GPU-ressurser tilgjengelig, siden nesten ingen forskere benytter seg av dem.

Tekster 20 timer i timen

Heldigvis har universitetet mye grafikkapasitet tilgjengelig. Det er nesten ingen i de norske forskningsmiljøene som benytter seg av disse ressursene i dag.

AI-løsningen klarer å tekste rundt 20 timer video i timen med ressursene som er satt av til formålet.

Bergsager beskriver ressurstilgangen som ubegrenset.

− På CPU-anleggene våre er det uendlig med kø. De kjører med 100 prosent kapasitet hele tiden, men på GPU-siden har vi mye å gå på. Tilgangen her er mye større enn etterspørselen, sier han.

Tekstingen som i dag leveres krever nesten ikke etterarbeid. I mange tilfeller kan den legges ut direkte uten finpuss.

−Alle vil ha tilgang

Dermed kan alle som tekster video eller transkriberer lyd spare masse tid og ressurser, lover han.

− Studenter og forskere har masse intervjuer de trenger å tanskribere. Dette er en veldig stor greie for dem.

Siden tjenesten ble lansert i begynnelsen av februar har ryktene spredd seg via jungeltelegrafen.

Universitetet i Oslo får daglig forespørsler om tilgang til tjenesten fra offentlig og privat sektor.

Blant annet har IT-avdelingen til Nav vært svært på hugget, forteller Bergsager.

− Det kan bli aktuelt å tilby den åpent til alle siden vi får så mange henvendelser. Det kan skje om kort tid, eller aldri – det har vi ikke funnet ut av enda.

− Siden utviklingen går så fort vet vi jo ikke om dette er noe alle kan kjøre lokalt om bare noen måneder, men vi ser definitivt på muligheten for å åpne opp tjenesten for flere, sier han.

Les også