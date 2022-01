Det var en sensasjon da man sommeren 2021 klarte å gjenskape stemmen til den amerikanske skuespilleren Val Kilmer etter at han mistet den på grunn av kreft i 2014.

Selskapet Sonantic hadde i samarbeid med Kilmer samlet inn timevis med stemmeopptak og trent en modell til å gjenskape det. Resultatet – som kan høres her – er overbevisende, om enn med litt metallisk lyd. Men med litt finpuss vil Kilmer kunne gjenoppta filmkarrieren.

Nå – mindre enn ett år senere – kan hvem som helst gjøre dette på en bærbar datamaskin hjemme uten større IT-kunnskaper enn en elev i videregående skole, som redaktør Magnus Boye i danske DataTech uttrykker det i siste episode av podkasten Transformator.

Med bare en halvtimes tale har han laget nok treningsdata til at programmet Overdub fra selskapet Descript kan lage en syntetisk stemme. Programmets maskinlæring kombinerer manus og tale, og det er vanskelig å skille den kunstige stemmen fra originalen.

– Programmet skal ikke bare lære lyden og klangen til stemmen min. Den må også lære hvor jeg legger trykket eller hvordan jeg avslutter en setning. Det er det som gir stemmen dens personlighet, sier Boye.

En billig reklamefilm

Magnus Boye er overbevist om at mange bransjer må være obs på denne teknologien, som nå er i rivende utvikling:

– Det er mange bransjer som må ta en kikk på dette. Hvis du for eksempel skal få laget en speak til den nye reklamefilmen din, er det ikke nødvendig å ansette en skuespiller og bestille et studio. Du bare tar med deg favorittskuespilleren din på en kjøretur og legger inn manuset ditt. For enhver bedrift som ønsker å kutte 10 prosent av kvaliteten for å spare 90 prosent av kostnadene, er det interessant. Faktisk selger et israelsk selskap allerede avatarer som kan brukes med lyd og video over hele verden.

Verktøy for svindlere

Som annen teknologi vil stemmesyntese være et opplagt verktøy for svindlere. Det finnes allerede eksempler på at det som høres ut som direktøren ringer regnskapsavdelingen for å få overført penger til en bestemt konto.

– Dette betyr at bedrifter må forholde seg til deep fake og grundige prosedyrer for hvordan de skal håndtere oppringninger fra sjefen, sier Boye og legger til at Descript allerede har bygget inn det første forsvaret mot misbruk. Før man åpner programmet må man snakke inn et slags samtykke. Dette matcher programmet med alt som er tatt opp tidligere for å sikre at det er den rette stemmen som gjenskapes og ikke andres.

Vil du vite mer, kan du høre den danske podkasten Transformator her. De gir eksempler på hvordan man kan korrigere lyden i en innlest tekst ved å skrive i originalmanuset. Og så får Overdub, sammen med språkprogrammet GPT3, i oppgave å lage et manus og produsere en podkast om rabarbrasyltetøy. Resultatet er en klar illustrasjon av både potensialet og risikoen ved talesyntese.

Denne artikkelen ble først publisert på Ingeniøren