Politiet skal få big data-system med enorm kapasitet

Utvikles av norske og nederlandske forskere.

Politiet skal få big data-system med enorm kapasitet
Hansken er et nederlandsk big data-system laget for digital etterforskning og analyse. Nå skal norske forskere bidra i utviklingen av avanserte verktøy for politiet. Bilde: Cees de Laat

Norske og nederlandske forskere skal utvikle neste generasjons dataverktøy for digital etterforskning og bevisanalyse.

Partene har jobbet sammen en stund, men Center for cyber and information security (CCIS) ved Høgskolen i Gjøvik innleder nå et formelt samarbeid med Forensic Institute (NFI), en etat underlagt justis- og sikkerhetsdepartementet i Nederland.

Miljøene skal skape en distribuert plattform for «etterforskning-som-en-tjeneste», eller «distributed computing platform for Forensics as a Service» som de kaller det.

Big data

– Med dagens IT-systemer kan politiet vente i flere uker på svar ved søk i store datamengder. Det er ikke holdbart når saker på internasjonalt nivå i snitt består av 8 terabyte med data, sier direktør Sofie Nystrøm i CCIS til digi.no.

Stikkordet er big data.

Det blir store datamengder når politiet må tråle gjennom alt fra videoklipp og bildesamlinger til hele mobiltelefoner, pc-er og andre elektroniske enheter. Målet er å lage et system som finner nåla i høystakken.

Forskningen omfatter arbeid med nye algoritmer og maskinlæring, blant annet.

Les også: Hun vil ha IT-sikkerhet i økonomi- og jussutdanningen

Med elefantens kraft

– Vi håper dette vil føre til smartere måter å jobbe på, og bidra til å effektivisere og gi store gevinster for norsk politi, sier Nystrøm.

Arbeidet bygges delvis på et system nederlenderne allerede har utviklet over mange år, kalt «Hansken».

Navnet er referanse til en berømt elefant på 1600-tallet, som ble fraktet med båt til Amsterdam. Elefanten begeistret publikum rundt i Europa med en rekke sirkuskunster, som å fekte og skyte pistol med snabelen, ifølge et eget nettsted.

Hvorvidt det er elefantens hukommelse, eller noe annet, som ligger bak navnevalget, vites ikke, men IT-systemet Hansken oppgis å være godt egnet for rask analyse av enorme datamengder.

En standardkonfigurasjon av systemet kan behandle 3 terabyte med data i timen, samtidig som etterforskere kan hente ut analyser fortløpende. Systemet kan også lett skaleres opp, ifølge en promovideo.

Hvilke behov snakker vi om her? Ganske mye mer, hvis vi skal tro denne presentasjonen fra det nederlandske justisorganet NFI. Lysbildene med referanse til 2014-tall oppgir at nederlandsk politi må prosessere 110 terabyte data til digital etterforskning, hver dag.

Lagringsbehovet oppgis å være på 20 petabyte i året. Det tilsvarer 20 millioner gigabyte, men igjen basert på fjorårstall.

Så du? Europa skal bli best på superdatamaskiner

Fysiske rack - jungle computing

Dette er ikke en skytjeneste. Det er heller ingen virtualiserte servere involvert. Infrastrukturen består av fysiske rack installert lokalt, ifølge Nystrøm.

– En instans gikk live i Nederland forrige uke etter fire års utvikling. Vi holder også på med å bygge opp en egen instans i forsknings- og utdanningsøyemed, sier hun.

Det er begrenset med offentlig informasjon om hva slags underliggende teknologi de anvender. Hansken-plattformen skal være basert på samkjøring av datakraft  fra en mengde ulike former for maskinvare, der alt fra superdatamaskiner/tungregnesystemer til grid-tjenester og enkeltstående servere, mangekjernede prosessorer, GPU-er og matteprosessorer kan inngå. Forskerne omtaler det hele som et nytt paradigme kalt «Jungle Computing», som også er nærmere beskrivet i denne forskningsrapporten.

CCIS på Gjøvik har investert en million kroner i første fase av prosjektet, delfinansiert av politidirektoratet. De norske forskerne skal ha den fysiske delen av infrastrukturen på plass før nyttår.

– Deretter skal løsningen prøves ut et halvt år, før det kan bli snakk om å ta dette videre ut i dialog med politidistriktene. Politiet i Norge vil finansiere sine egne piloter, sier Nystrøm.

Hun nevner at så mye som 10 til 15 millioner epostmeldinger kan være del av en etterforskningssak. Det sier seg selv at slike mengder er umulig å håndtere manuelt.

– Kunsten er å finne metodikk som i større grad kan automatisere jobben. Politidistriktene, Kripos og Økokrim har alle behov for denne typen tjenester.

Mer om samarbeidet: Forskere skal forsyne politiet med IT-kompetanse