DATASYN

Gjør om skadevare til bilder for å kunne gjenkjenne dem med datasyn

Forskere hos Intel og Microsoft samarbeider om nye klassifiseringsteknikker.

Ved å konvertere skadevare til bilder, kan skadevaren identifiseres ved hjelp av datasyn.
Ved å konvertere skadevare til bilder, kan skadevaren identifiseres ved hjelp av datasyn. Bilde: Colourbox
Harald BrombachHarald BrombachNyhetsleder
12. mai 2020 - 12:08

Microsoft mener det er store muligheter knyttet til bruken av dyp læring i forbindelse med detektering og klassifisering av skadevare. Allerede er dette til en viss grad tatt i bruk i selskapets Threat Protection-produkt. Samtidig har forskere hos Microsoft Threat Protection Intelligence Team and Intel Labs samarbeidet om videre utforskning av nye teknikker.

På Check Points seneste skadevare-toppliste er det flere kjente navn, men også et par nykommere.
Les også

Ny skadevare-toppliste: Førsteplassen øker betydelig i Norge

Datasyn og dyp overføringslæring

Ett av de områdene som forskerne har sett på, er å utnytte teknikker innen datasyn («computer vision») til klassifisering av skadevare, ved å gjøre om skadevare til bildepiksler.

Datasyn handler om hvordan datamaskiner kan forstå innholdet i digitale bilder og videoer. Dette er et område innen dyp læring der det har blitt gjort mange framskritt de siste årene, så det gir mening å låne kunnskap og metoder fra dette feltet til nye formål, inkludert det å finne mer skalerbare metoder for analyse av skadevare.

I det aktuelle tilfellet har forskerne tatt i bruk en teknikk som kalles for dyp overføringslæring («deep transfer learning»). Dette dreier seg om å overføre hele eller deler av kunnskapen et nevralt nettverk har oppnådd under trening, for eksempel på å gjenkjenne katter i bilder, til bedre å gjøre en annen, lignende oppgave, for eksempel å utføre diagnoser basert på røntgenbilder.

AI-eksperten Andrew Ng forklarer konseptet i videoen nedenfor.

Statisk analyse

Forskerne har kalt tilnærmingen sin for STAMINA (static malware-as-image network analysis). Ved statisk klassifisering brukes kun egenskaper ved programvarefilene som kan observeres uten at filene kjøres.

STAMINA har vist seg å kunne gjenkjenne skadevare med svært høy nøyaktighet og en lav andel av falske positive svar i et forsøk hvor det er brukt et utvalg med blant annet hasher hentet fra 2,2 millioner skadevareinfiserte binærfiler. 60 prosent av binærfilene i utvalget ble brukt til trening. 20 prosent ble brukt til validering, mens de resterende 20 prosent ble brukt til testing.

Forskerne lykkes med å få tak i over 70 utviklere som fylte den litt pussige kravlista: Må være kjent med Python, ha programmeringserfaring, være over 21 år, og ha brukt cannabis i løpet av det siste året.
Les også

Nå har vi svaret: Gjør cannabis deg bedre til å programmere?

Gjøres om til JPEG-bilder

Med STAMINA gjøres skadevarefilene altså om til bildedata. I praksis gjøres de først om til en endimensjonal, gråtone-pikselstrøm hvor hvert byte i den kjørbare filen gis en verdi på mellom 0 og 255, som korresponderer med pikselintensiteten. Deretter blir pikselstrømmen gjort om til et todimensjonalt JPEG-bilde. Høyden og bredden på bildet bestemmes ut fra størrelsen på binærfilen.

Det skal også være mulig å endre størrelsen på bildet uten at dette påvirker klassifiseringsresultatet på noen negativ måte. Dette forklares av forskerne med at systemet som de bruker, trener et veldig dypt, nevralt nettverk for å hente ut de dypt representerte egenskapene.

De første tre trinnene i STAMINA-metoden. <i>Illustrasjon: Intel og Microsoft</i>
De første tre trinnene i STAMINA-metoden. Illustrasjon: Intel og Microsoft

Både styrker og svakheter

Metoden var i stand til å identifisere og klassifisere skadevaren med en nøyaktighet på 99,07 prosent med en rate for falske positiver på 2,58 prosent, et resultat forskerne ble oppmuntret av.

STAMINA-metoden har likevel noen svakheter. Blant annet egner den seg best i forbindelse med relativt små filer. Metoden blir mindre effektiv dersom filene må konverteres til milliarder av piksler, som settes sammen til et JPEG-bilde, som deretter krympes. I slike tilfeller er det fordeler ved å bruke metadata-baserte metoder i stedet.

En vitenskapelig rapport om forskningen er tilgjengelig her.

Det er blitt veldig enkelt å manipulere bilder. Digitale signaturer er blant det som kan bremse utviklingen.
Les også

Kun ett råd beskytter mot deepfake

Del
Kommentarer:
Du kan kommentere under fullt navn eller med kallenavn. Bruk BankID for automatisk oppretting av brukerkonto.