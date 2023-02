Spørsmål om treningsdata og krenking av opphavsrett ved bruk av AI-verktøy står i fokus om dagen. Utviklere bør ha et bevisst forhold til og rutiner på plass for trening av AI-modellene.

I Storbritannia pågår for øyeblikket en tvist mellom Getty Images og Stability AI, selskapet bak bildegenerings-AI-en Stable Diffusion.

Stability AI har blitt beskyldt for ulovlig kopiering og behandling av millioner av opphavsrettsbeskyttede bilder med tilhørende metadata eid av Getty Images. Stability AI har brukt et datasett kalt LAION-5B, utviklet av en tysk non-profit, med 5,85 milliarder lenker til bilder lagret på nettsider og korte beskrivelser av hvert bilde. I dette datasettet var angivelig Gettys bilder inkludert uten at det var innhentet samtykke for bruk av bildene.

Selv om det er lite ut over presseskrivet til Getty Images som er kjent for allmennheten, reiser saken to problemstillinger som kan være interessante for utviklere av AI-modeller på et generelt grunnlag:

1. Kan treningsdata krenke opphavsretten?

2. Kan bruk av AI-verktøyet krenke opphavsretten?

AI lærer av store mengder data

Før man går inn på problemstillingene må man forstå hvordan AI-verktøyene fungerer. Opplæring av AI-verktøy går i to faser: treningsfasen og testfasen.

I treningsfasen samles store datamengder, som tekst og bilder, for eksempel gjennom tekst- og datamining (en innsamlings og analyseteknikk), som brukes som treningsdata og mates til algoritmene.

Vi skiller mellom tre overordnede typer læring eller trening: veiledet, ikke-veiledet og forsterket.

Veiledet læring innebærer at algoritmen lærer å forstå sammenhengen mellom treningsdata og et forhåndsdefinert resultat. Ikke-veiledet læring innebærer at algoritmene skal oppdage mønstre i dataene uten å bli veiledet av forhåndsdefinerte kategorier. Forsterket læring innebærer en tilbakemeldingsbasert tilnærming til algoritmen, hvor denne lærer å opptre i et miljø basert på sine handlinger og ved å se sine handlinger. For hver riktige handling vil algoritmen få positiv tilbakemelding, mens ved en feil handling vil algoritmen få en negativ tilbakemelding.

Overordnet bygger de fleste AI-bildegenereringsverktøyene på en kombinasjon av semi-veiledet trening og ikke-veiledet trening.

Neste fase er testfasen. Her blir algoritmen presentert for helt nye data som den aldri har blitt gjort kjent med, for å finne ut hvor nøyaktig den presterer i den virkelige verden.

Etter flere runder med trening og testing kan AI-verktøyet fremstille nye resultater, for eksempel nye bilder.

Unntak for ikke-kommersiell bruk

Som hovedregel vil opphavspersonen ha enerett til å fremstille kopier av sine verk og selv velge hvordan verkene skal utnyttes. Dersom et AI-verktøy trenes på beskyttede åndsverk, vil den som trener, opptre i strid med opphavsretten, med mindre utvikleren faller inn under noen av unntakene.

I 2019 innførte EU et sentralt unntak for brudd på opphavsretten i direktivet om opphavsrett og nærstående rettigheter i det digitale indre markedet (DSM-direktivet) – i artikkel 3, som kalles forskningsunntaket, og artikkel 4, kalt tekst- og datautvinnings-unntaket, (TDM-unntaket).

Som utgangspunkt gjelder unntaket for ikke-kommersiell bruk, som i forbindelse med læring og undervisning.

Usikkerhet om reservasjon

Mange utviklere vil nok ønske å kommersialisere sine kunstige intelligenser. Dette medfører sannsynligvis at de ikke vil falle inn under unntakene. Direktivet innførte også et bredere TDM-unntak som gjelder for alle. Unntaket innebærer at opphavsrettsholdere kan velge ikke å gjøre sine verk tilgjengelige for TDM.

Her oppstår det en nokså stor uklarhet ved at det oppstilles vilkår om at unntaket i artikkel 4 kun gjelder i tilfeller hvor rettighetshaveren ikke har eksplisitt reservert seg mot tekst- og datamining.

Hva som skal regnes som en eksplisitt reservasjon, er imidlertid uklart.

Det har blant annet vært diskutert om det er tilstrekkelig å legge til standarden robot.txt på nett for å hindre at noen datautvinner det opphavsrettsbeskyttede innholdet. Vi er nok ikke noe nærmere et svar, men utviklere bør likevel ta inn over seg at de med stor sannsynlighet ikke vil falle inn under unntaket så lenge AI-modellen er tiltenkt kommersiell bruk.

Utfallet kan utgjøre et opphavsbrudd

Hvis et AI-verktøy skaper et bilde som ligner på et eksisterende verk, kan verktøyet og dets utvikler ha krenket opphavsretten til det eksisterende verket. For eksempel kan man be verktøyet om å lage et bilde av Spiderman i Jack Kirbys stil, og resultatet kan være en god representasjon av superhelten i tegneserieskaperens stil.

Samtidig er det mulig at verktøyet har kommet opp med resultatet på egen hånd, hvor likheten kan være tilfeldig eller basert på brukerinstruksjoner. Det kan også være situasjoner hvor det AI-genererte bildet faller inn under unntak som karikatur, parodi eller bruk i lærings- og

undervisningsformål. Man kan videre argumentere for at Kirbys tegninger er brukt i treningen fordi AI-verktøyet kjenner til stilen.

Det kan derfor være utfordrende for utvikleren å bevise at det ikke har vært noen form for opphavsrettsbrudd.

Utviklere av AI-verktøy bør dokumentere hvilke verk som er brukt til å trene AI-verktøyene og vurdere tiltak som å få lisens for datasettene de bruker for å unngå brudd på opphavsretten.