De mest populære maskinlæringsteknikkene kan ikke svare på spørsmål om årsak og virkning

Å starte med en løsning og deretter søke etter problemer kan føre til at man ikke vurderer alternative løsninger som kan være bedre egnet, skriver Magnus Bakken i denne kronikken.

Magnus Bakken, teamleder optimering, Decisive AS. Foto: Kristine Støleggen

Magnus Bakken, Decisive AS

22. feb. 2019 - 05:00

Denne kommentaren gir uttrykk for skribentens meninger.

De siste årene har vi sett imponerende fremskritt innen kunstig intelligens. Både næringslivet og offentlig sektor har en blanding av entusiasme for å ta i bruk teknologien og frykt for å bli forbikjørt og utkonkurrert hvis man ikke tar den i bruk.

Kunstig intelligens har nærmest blitt ensbetydende med maskinlæring, helst ved bruk av dype nevrale nett. Maskinlæring er en type prediktiv analyse, som forsøker å utlede ting vi ikke vet fra noe vi vet. Vi kan vite hvordan avbildningen til hjernen til en gruppe pasienter ser ut, men vi vet ikke om pasientene vil utvikle Alzheimers sykdom. Oppgaven til maskinlæringsmodellene er å forutsi det ukjente (utvikler pasienten Alzheimers sykdom) fra det kjente (hjerneskann). Denne teknologien gjør at man kan utnytte moderne maskinkraft maksimalt til å finne subtile sammenhenger og mønstre mellom attributtene og det som skal forutsies.

Det er bare naturlig når en så imponerende teknologi dukker opp å forsøke å finne anvendelsesområder for den. De mest populære maskinlæringsmetodene har imidlertid sine begrensninger. Virksomheter er tjent med å kjenne til disse når de skal bruke sine data til å fatte bedre beslutninger ved hjelp av prediktiv analyse.

Det er bare naturlig når en så imponerende teknologi dukker opp å forsøke å finne anvendelsesområder av den

I Gartners fremstilling av virksomheters analytiske modenhet fremstilles prediktiv analyse som en forløper til preskriptiv analyse. Analytisk modne virksomheter nøyer seg ikke med å forutsi hva som kommer til å skje (prediksjon), de bruker prediksjonene til å finne den aller beste handlingen blant nærmest utallige alternativer (preskriptiv analyse). Preskriptiv analyse er ifølge Gartner den formen for analyse som gir størst verdi. Et flyselskap kan ha stor nytte av å forutsi hva billettsalget vil være for en gitt billettpris, men enda større nytte av å sette billettprisen til prisen som maksimerer profitten blant alle mulige billettpriser de kan sette.

Fra en slik fremstilling kan man bli ledet til å tro at prediktiv analyse ved hjelp av maskinlæring og kunstige nevrale nettverk vil uten videre legge grunnlaget for preskriptiv analyse. Hovedpoenget mitt i denne artikkelen er at mange av maskinlæringsteknikkene som brukes i dag ikke legger dette grunnlaget.

AI-nestoren Judea Pearl beskriver i sin seneste bok «The Book of Why» hvorfor dette ikke er tilfelle. De fleste som har tatt et kurs i statistikk eller vitenskapelig metode vet at assosiasjoner ikke er det samme som årsak og virkning (kausalitet). Det hjelper lite å måke snø for å heve utetemperaturen, selv om kald temperatur er assosiert med snø. Vi vet at en tredje variabel forårsaker både avlesningen på målestokken og snøfall. Pearl argumenterer for at moderne maskinlæringsteknikker som dype nevrale nettverk kan lære seg imponerende mønstre og assosiasjoner, men at de ikke uten videre kan svare på kausale spørsmål.

De fleste som har tatt et kurs i statistikk eller vitenskapelig metode vet at assosiasjoner ikke er det samme som årsak og virkning

For at prediktive modeller skal kunne svare på spørsmål om årsak og virkning er de nødt til å gjøre antakelser om virkeligheten. La oss si at vi har en gruppe arbeidstakere i en fagforening. Vi kan finne en assosiasjon mellom det å ta et kurs, og lønnen tre år etter. Det kan imidlertid hende at gruppen som tok kurset var systematisk forskjellig fra gruppen som ikke tok kurset. Kanskje hadde de høyere utdannelse fra før av enn gruppen som ikke tok kurset hadde.

Dersom vi har god grunn til å tro at vi kjenner til hvilke faktorer som kan forårsake både kursdeltakelse og lønnsutvikling, og vi har pålitelige data om de, så kan vi kontrollere for disse faktorene. Assosiasjonen vi står igjen med er effekten av å ta kurset på senere lønn, og kan være styrende for om man skal fortsette å anbefale kurset til medlemmene i fagforeningen. Merk at alle deltakerne kan ha gått opp i lønn etter å ha tatt kurset, men lønnsøkningen kan ha vært lavere enn den ellers ville ha vært hadde de unnlatt å ta kurset. Assosiasjonen mellom å delta på kurs og lønn etter tre år kan altså være positiv, samtidig som at årsakssammenhengen er negativ.

Spørsmål om årsak og virkning er kritiske for preskriptiv analyse, som baserer seg på at vi kan med en viss sikkerhet si hva som vil hende om virksomheten velger å handle annerledes.
Maskinlæringsmodeller som ikke tar i bruk kunnskap om årsakssammenhenger har problemer med å svare på slike spørsmål, og legger derfor ikke grunnlaget for preskriptiv analyse.

Et viktig unntak hvor maskinlæringsmodeller er nyttige for preskriptiv analyse er når maskinlæringsmodellen forutsier noe som er ikke påvirkes av handlingene til virksomheten. En maskinlæringsmodell kan forutsi trafikkforholdene i en by i morgen (prediktiv analyse). Når et transportselskap skal planlegge sine kjøreruter (preskriptiv analyse) kan de legge til grunn den forespeilede forsinkelsen i sin planlegging. I dette tilfellet kan maskinlæringsmodellen brukes i preskriptiv analyse fordi transportselskapets beslutninger ikke påvirker trafikkforsinkelsen i byen. Trafikkplanleggere i byen bør imidlertid være forsiktige med å bruke maskinlæringsmodellen til å redusere trafikkforsinkelsene, fordi dette kan lede de til ta handlinger som tilsvarer å måke snø for å redusere temperaturen.

For virksomheter som ønsker å bruke sine data til å ta aller beste beslutning (preskriptiv analyse), er det viktig å være klar over at maskinlæring med dype nevrale nettverk ikke kan løse hele prediksjonsproblemet på egenhånd. For å bruke data til å svare på spørsmålet: «hva vil skje om vi handler annerledes?» finnes det både etablert metodikk, og pågående forskning som kombinerer den etablerte metodikken med maskinlæringsteknikker.