Er føderert læring en trojansk personvernhest?

Føderert læring er en av flere løsninger på en sentral personvernutfordring for kunstig intelligens: Den gjør det nemlig mulig å lære fra alle sine data uten at hver enkelt må dele sine persondata med alle. Dessverre kan føderert læring bryte med andre sentrale personvernprinsipper.

Anders Løland skriver i kronikken at det ikke er umulig å tilfredsstille sentrale personvernprinsipper med føderert læring, men at det kan involvere en konflikt mellom kryssende personvernprinsipper. Foto: Privat

Del

Kommenter

Anders Løland, forskningssjef ved Norsk Regnesentral og leder av BigInsight

27. mars 2024 - 16:02

Dette debattinnlegget gir uttrykk for skribentens meninger. Innlegg kan sendes til debatt@tu.no.

Google var først ute med såkalt føderert læring («federated learning» på engelsk) i 2016, blant annet for desentralisert trening av maskinlæringsmodeller til Android-telefoner. Maskinlæringsmodellen som foreslår neste ord du sannsynligvis vil skrive på mobiltelefonen din, er et eksempel på en modell som nå blir trent opp med føderert læring.

Med føderert læring kan en maskinlæringsmodell trenes opp på flere ulike datasett (for eksempel fra ulike personer) uten å slå dem sammen. Maskinlæringsmodellen reiser med andre ord rundt og besøker hvert datasett istedenfor at det lages ett stort datasettet. Sluttresultatet kan uansett bli den samme maskinlæringsmodellen. Føderert læring er derfor er spesielt nyttig hvis datasettene inneholder personopplysninger eller bedriftshemmeligheter.

I Datatilsynets gjennomgang av personvernfremmende teknologi trekkes føderert læring fram som en teknikk som kan bidra til å oppfylle kravene til informasjonssikkerhet, konfidensialitet og integritet.

Elon Musk beskriver den seneste Grok-modellen i store ord.

Les også

Elon Musk om sin nye KI-modell: – Har slått alt annet som har blitt lansert

Kjente utfordringer

Vanlige informasjonsikkerhetsutfordringer gjelder også for føderert læring, og krypteringsteknikker er en viktig del av løsningen.

Et tema, som også Datatilsynet nevner, er at noen maskinlæringsmodeller som er trent med føderert læring, kan være sårbare for såkalte inversjonsangrep, altså at aktører med skumle hensikter kan prøve å avlede personopplysninger basert den trente modellen.

Modellen som reiser rundt til hvert datasett, får med seg et bidrag til modellen (såkalte gradienter). Det har vist seg at dette er en mulig kilde til lekkasje av persondata. Det kan en bøte på ved hjelp av såkalt differensielt personvern (DP – differential privacy), som i praksis betyr at modellen blir trent på data som inneholder noe støy.

En aktør med urent mel i posen kan dessuten tenkes å prøve å dytte en maskinlæringsmodell i en bestemt retning ved å endre på dataene modellen trenes på. Med føderert læring blir både angrepet og svaret mer komplekst enn ved ikke-føderert læring.

Den trojanske personvernhesten

Samtidig som føderert læring er godt personvernnytt, utfordrer etter min mening teknikken noen av de grunnleggende personvernprinsippene, nemlig i) gjennomsiktighet, ii) riktighet og iii) rettferdighet. Disse prinsippene er delvis overlappende.

Artikkelen fortsetter etter annonsen

annonsørinnhold

9001 og 27001 gir beste praksis for Mediehuset Andvord

Gjennomsiktighet betyr her at den enkelte som utsettes for en maskinlæringsmodell skal skjønne hva maskinlæringsmodellen gjør med deg og dine persondata. Stadig mer komplekse maskinlæringsmodeller har gitt oss fagfeltet forklarbar kunstig intelligens, som handler om å bruke maskinlæringsmodeller til å forklare maskinlæringsmodeller. Dette blir ikke akkurat enklere med føderert læring. Og når den forklarbare kunstige intelligensen bare kan se deler av datasettet modellen er trent på, kan forklaringene bli mangelfulle.

− Kommunen skal ha ros både for å ta i bruk teknologien, men også for å være åpne og reagere raskt når det viser seg at feil har blitt gjort, skriver Karianne Tung.

Les også

Tung om KI-skandalen: − Jeg heier på kommuner som tør å prøve

Riktighet betyr vanligvis i personvernsammenheng at personopplysninger som behandles, skal være korrekte og oppdaterte. Jeg vil si at også maskinlæringsmodeller trent på persondata, skal være korrekte og oppdaterte. For føderert læring må i tillegg hver deltaker som bidrar med data, ha eksakt samme datakvalitet og samme prosedyrer for innsamling av data. I praksis kan det være nesten umulig å oppnå. For Android-telefonene og forslag til neste ord kan det gå veldig greit, mens det for ulike banker som vil bidra med hver sine hvitvaskingsdata til føderert læring, kan gå galt på grunn av subtile forskjeller i dataene. Denne utfordringen er like mye til stede ved ikke-føderert læring, men med ikke-føderert læring er det faktisk mulig å undersøke om problemet eksisterer.

Rettferdighet betyr at behandlingen av personopplysninger skal gjøres i respekt for de registrertes interesser og rimelige forventninger. Med maskinlæring er tiltak som gjør resultater fra automatiserte avgjørelser forutsigbare og forståelige, spesielt relevant, noe som også henger sammen med prinsippet om gjennomsiktighet. Med føderert læring kan det skje at en deltakers data dominerer maskinlæringsmodellen, for eksempel hvis det er ulik grad av representative data fra hver deltaker. Den vanlige måten å håndtere dette på er å analysere det samlede datasettet og se etter skjevheter, etc. Det er dessverre vanskelig å trenge gjennom dette når hver enkelt deltaker bare ser sitt eget datasett.

Kryssende personvernprinsipper

Det er ikke umulig å tilfredsstille sentrale personvernprinsipper med føderert læring. Jeg mener bare at det er en potensiell konflikt her mellom kryssende personvernprinsipper.

Å vurderer risiko for diskriminering i KI-systemer, som Likestillings- og diskrimineringsombudet har gitt ut en veileder om, kan dermed bli vanskeligere med føderert læring.