Microsoft skriver i et blogginnlegg at selskapets utviklere genererer så mye som nye 30.000 programvarefeil i måneden. Dette høres sjokkerende mye ut, før en tar med at selskapet har omtrent 47.000 utviklere. Enkelte hevder at utviklere i gjennomsnitt skaper 70 bugs per tusen linjer med kode.

Etter at feilene har blitt oppdaget, for eksempel av brukere, blir rapportene lagt i en prioritert liste som mange av de samme utviklerne forsøker å jobbe seg gjennom. Klassifisering av feilene på denne listen er i seg selv en stor jobb. Høyest prioritet får feil som anses å utgjøre en sikkerhetsrisiko.

Like godt som en sikkerhetsekspert?

Siden 2001 har Microsoft samlet på programvarefeil og tilhørende informasjon, mer enn 13 millioner objekter til sammen. Disse dataene har selskapet nå brukt til å lage en prosess og en maskinlæringsmodell som med stor treffsikkerhet greier å skille mellom sikkerhetsfeil og feil som ikke utgjør noen sikkerhetsrisiko. Dette greier løsningen i 99 prosent av tilfellene.

I tillegg klarer løsningen i 97 prosent av tilfellene å skille ut sikkerhetsfeil som er kritiske, og som dermed skal prioriteres aller høyest. Dette er trolig ikke langt unna målet til Microsoft om at systemet skal ha en nøyaktighet så nær som mulig opp mot nivået til en menneskelig sikkerhetsekspert.

Kun tittelen

En ekstra utfordring er at feilrapportene som systemet skal klassifisere, ofte inneholder sensitive data, for eksempel personopplysninger. I disse tilfellene er det kun tittelen på rapport som systemet får tilgang til.

Microsofts forskere mener de med systemet har demonstrert at det lar seg gjøre å klassifisere rapportene utelukkende basert på rapporttitlene. Forskerne har også studert i hvilken grad ulike maskinlæringsteknikker under treningen lar seg påvirke av støy, slik som villedende rapporttitler.

En forskningsrapport om systemet er tilgjengelig på denne siden. Microsoft planlegger å tilby metodene som åpen kildekode på Github innen noen måneder.