Hvor nøyaktig er digital smittesporing?

Skal du laste ned Folkehelseinstituttets smittesporingsapp eller ikke? Hittil har diskusjonen gått på personvern og sikkerhet – prisen vi må betale for å ta appen i bruk. En mye viktigere diskusjon er: Hva oppnår vi ved å bruke appen, og hvor mye bedre er den enn de metodene man bruker i dag?

Espen Andersen. Foto: BI

ESPEN ANDERSEN, FØRSTEAMANUENSIS VED BI

7. apr. 2020 - 09:36

Denne kommentaren gir uttrykk for skribentens meninger.

A cynic is a man who knows the price of everything, and the value of nothing.
Oscar Wilde

Det har vært endel diskusjon om personvern og den nye appen til Folkehelseinstituttet i det siste. Jon Wessel-Aas mener appen ikke bør lastes ned av personvernhensyn. Datatilsynet mener det er greit, så lenge det er frivillig og man oppgir hva dataene skal brukes til. Åpen kildekode har vært foreslått – Simula mener de ikke har tid.

Om Espen Andersen

Espen Andersen (www.espen.com) er førsteamanuensis i strategi ved BI, førsteamanuensis II ved Institutt for Informatikk ved UiO, konsulent, foredragholder og svært utålmodig kommentator. Han sendte sin første epost i 1985 og synes digitaliseringen av Norge går altfor sent.

Det er jeg enig i, men de bør bruke en uavhengig ekspertgruppe til gå gjennom i alle fall algoritmene og helst koden også (og jeg har hørt at de jobber med å sette opp noe slikt). Fra utlandet hører vi om utstrakt, mobilbasert overvåkning av mulige koronasmittede, inkludert sporing av om folk faktisk overholder karantenereglene – noe som ikke er planlagt i Norge, men som kan komme opp som forslag.

Dette er legitime meningsforskjeller og ingen grunn til å sette i gang de store konspirasjonsteoriene. Enhver ny teknologi bringer med seg ny risiko, enhver lagring av data om deg er et personvernproblem. Vi vet på en måte prisen for denne appen.

Det som ikke er like klart er hva vi får igjen – hvor god er egentlig en slik app til faktisk å spore smitte? Og hva er konsekvensene om den er mindre presis enn avertert?

Enda så opptatt jeg er av at vi burde digitalisere raskere og i mange sammenhenger, er jeg usikker på om dette gjelder her – og mistenker at teknologien nok er oversolgt litt.

For ordens skyld: Jeg har stor respekt for Simula. De har en svært god «track record» på avansert teknologi og er sterkt fagmiljø innenfor stordataanalyse. Ei heller tviler jeg på myndighetenes intensjoner her. Men all bruk av data medfører uunngåelige feilkilder og forenklinger – spørsmålet er hvor store de er. Og selv om jeg er aldri så utålmodig når det gjelder digitalisering, er jeg redd vi stoler litt mye på teknologien her, og kanskje ikke helt har sett på mulige konsekvenser (utenom personvern).

Statistiske data vs. beslutninger om enkeltpersoner

Premisset bak appen er en studie fra Oxford (Ferretti et al, 2020) som (i hovedsak) sier at hvis vi kan redusere tiden fra en person blir smittet til alle kontakter er sporet opp fra tre dager til sanntid kan vi få smittefrekvensen så lav at epidemien stopper opp, under forutsetning at den adopteres av en stor del av befolkningen. Studien bygger på tidlige data fra Kina og diskuterer overhodet ikke implementering av en slik digital sporing, men anbefaler det sterkt.

Et viktig element her er denne appen ikke som hovedformål å samle inn statistikk om hvordan covid-19 sprer seg i befolkningen, men å gjøre beslutninger om enkeltpersoner. Når man vet at en person er smittet, vil systemet sjekke hvem vedkommende var i nærheten av under inkubasjonstiden (5-6 dager i gjennomsnitt, kan variere fra 0 til 14). Hvis du har vært nær en smittet person, vil du få en SMS med beskjed om at du skal i karantene.

Men hvor riktig er den beslutningen? Innen dataanalyse kalles dette et klassifikasjonsproblem: Ideelt sett skal befolkningen kunne klassifiseres i til fire kategorier:

Ikke smittet
Mulig smittet
Smittet (har symptomer eller har testet positivt)
Frisk (og antakelig immun)

Appen skal i utgangspunktet, gitt 3, finne de som er 2. Kategori 4 blir viktigere senere, etterhvert som vi nærmer oss flokkimmunitet. Hensikten er å “flate ut kurven” – se denne videoen for en god forklaring på teorien bak dette.

Tre spørsmål blir viktige:

Hvordan vet man i utgangspunktet om noen er smittet eller ikke?
Hvordan vet vi om noen har vært i nærheten av hverandre (og dermed blitt smittet)?
Hvor mye bedre blir beslutninger om karantene med denne appen enn med de metodene vi bruker i dag?

Hvem er smittet til å begynne med?

Det er ikke trivielt å finne ut om noen er smittet eller ikke. Tester er presise, men vi har ikke nok av dem. Symptomer er antakelig ikke nok. En kollega på BI havnet på sykehus med korona-symptomer – lungebetennelse, høy feber, pustevansker, hele pakken. Han er hjemme igjen, men testet negativt. (I hans sted ville jeg følt meg litt snytt.) Symptomer sammen med bekreftet eksponering må antakelig anses som bekreftelse inntil videre, i alle fall til vi får flere og raskere tester.

Innen maskinlæring snakker vi om “labeled data” – skal vi kunne bygge en modell må vi ha et datasett der vi vet fasiten, altså om noen faktisk er smittet eller ikke. Det har vi foreløpig ikke – det er derfor Simula snakker om viktigheten av å ha et sterkt testregime for at dette skal bli vellykket.

Hvor nært er nært?

Denne appen måler ikke smitte, men samlokasjon – at to mobiltelefoner har vært i nærheten av hverandre (definert som to meter fra hverandre i mer enn 15 minutter). Slike regler settes fordi man må sette en grense som kan kommuniseres og overholdes. Om den er riktig eller ikke, vet vi ikke ennå – men det er muligens noe modellen etterhvert kan svare på. Men måleteknologi lager sine egne feilkilder, som såvidt jeg kan se ikke er inkludert i artikkelen som ligger til grunn for prosjektet.

Det brukes to teknologier – GPS og bluetooth (blåtann) – til lokalisering, begge med begrenset nøyaktighet. GPS gir lokasjon med 2-3 meters nøyaktighet utendørs, men sliter når folk er innendørs (spesielt i forskjellige etasjer) eller mellom høye bygninger. Bluetooth gir ikke geografisk informasjon (bra for personvernet) men har en (for klasse 2 bluetooth, mest vanlig i mobiltelefoner) rekkevidde på omtrent 10 meter. Signalstyrke kan gi en viss indikasjon av avstand, men så vidt jeg vet er dette meget upresist.

Digital sporing hjelper fordi folk glemmer hvem de har vært i nærheten av før de finner ut at de er smittet – og de blir ikke varslet. Men med digital sporing risikerer vi en rekke registreringer der folk har vært i nærheten av hverandre uten at det er farlig – innen modellering kalt falske positive. Neste gang du er i butikken, gå inn på bluetooth-menyen på mobilen din og se hvor mange mobiltelefoner du ser. En bussjåfør med appen på kan fort bli oppfattet som “nær” av halvparten av passasjerene i bussen. Butikkansatte kan oppfattes som “nær” kundene, selv om de er på hver sin side av pleksiglass. To personer i hver sin bil i en trafikkork kan bli registrert som nær hverandre. Folk kan legge fra seg mobiltelefonene nærmere enn to meter, uten å være nær selv.

Hver falske positive kan i sin tur utløse nye falske positive, og vi kan få en kaskadeeffekt, hvor store deler av Norges befolkning blir sendt i karantene på kort tid. Skal vi unngå det, må vi ha mer presisjon i dataene, noe som antakelig kan oppnås med bruk av tilleggsdata: Om nærhet er gjentatt, om det skjer ute eller inne, alder og tidligere sykdommer, og så videre. Jo mer sofistikerte modeller du vil ha, jo mer og bedre data trenger du – og det å samle alle dataene et sted tillater gradvis forbedring av modellene. Men det gir også personvernutfordringer.

Hva skal appen vurderes opp mot?

Nå vi skal vurdere en ny teknologi, må vi aldri vurdere den opp mot det perfekte, men mot hva vi gjør nå: Testing (men burde teste flere), symptomer, utenlandsopphold, selvrapporterte kontakter og selvpålagt karantene. Denne metoden har mange feilkilder – folk glemmer hvem de er sammen med, eller vet ikke hvem de er, for eksempel. Spørsmålet er: Er den nye teknologien verdt prisen (i dette tilfellet personvern og sikkerhet) for hva den er ment å tilby (mer presist og raskere smittevern.)

Bare så det er sagt, jeg vet ikke svaret, og det gjør heller ikke Simula eller Folkehelseinstituttet eller Helsedirektoratet, i hvert fall ikke med presisjon. Men de har bedre grunnlag for å uttale seg enn kommentarfeltene rundt omkring.

Konklusjon: Hva skal vi gjøre?

Et viktig element i kriseledelse er å kommunisere ofte, nøyaktig og sannferdig. Hva denne appen gjelder, bør det kommuniseres utførlig om hvor mye bedre den er enn dagens løsning, for eksempel ved å publisere modellens nøyaktighet ved ulik adopsjonsgrad – det har vært nevnt at man trenger 60-70 prosent adopsjon for å få gode nok resultater, men dette tar ikke høyde for systematiske variasjoner i hvem som adopterer den.

La meg understreke, igjen (og det kan ikke sies ofte nok): Alle datakilder og alle modeller har feil. Det må vi leve med. Det vi må vurdere, er om feilene er store nok til at vi ikke kan bruke resultatet. Å publisere nyanserte vurderinger rundt dette er ingen lett oppgave: Dels fordi man ikke har presise svar og ikke vil få den før etter at dette er over, dels fordi mange der ute ikke er vant til å forholde seg til feilkilder og vil ta alt under 100 prosent nøyaktighet som tegn på at modellen er verdiløs og derfor ikke noe man trenger å laste ned.

Men et demokrati forutsetter et informert publikum.

Hittil har befolkningen i Norge (stort sett) lojalt fulgt retningslinjer fra helsemyndighetene. Skal man opprettholde denne lojaliteten, bør man opprettholde en balansert og nøktern informasjonsstrategi – og det inkluderer å gi publikum de opplysningene de trenger til å ta et informert standpunkt.

Et frivillig valg er ikke frivillig med mindre man vet hvilket valg man tar.