Forfalskede data gir korrekte kundeprofiler

Forskere hos IBM mener å ha funnet en løsning som gir gode modeller for kundeprofiler på bakgrunn av forfalskede personopplysninger.

To forskere ved IBM Almaden Research Center, Ramakrishnan Srikant og Rakesh Agrawal, mener å funnet ut hvordan man kan ivareta personvernet samtidig som man sanker personopplysninger som er nøyaktige nok til å legges til grunn for gode modeller for kundeprofilering.

Det grunnleggende prinsippet bygger på den atferden mange har når man blir bedt om å oppgi personlige opplysninger til et nettsted: Alderen ljuges litt ned, inntekten litt opp og så videre.

Idéen til Srikant og Agrawal er at brukeren bør taste inn korrekte data, men at det som registreres, varieres vilkårlig innenfor bestemte grenser. Taster du inn din alder som 30, erstattes dette tallet med et vilkårlig valgt tall mellom 25 og 35, for eksempel 32. Tilsvarende erstattes tallet 35 med et vilkårlig valgt tall mellom 30 og 40.

35-åringen kan registreres som en 30-åring, mens 30-åringen registreres som en 35-åring - og den som eventuelt leser registeret, kan ikke trekke noen annen konklusjon enn at den faktiske alderen ligger et eller annet sted i det fastsatte intervallet.

Jo større intervall det registrerte tallet kan velges fra, desto mer feil kan det hefte ved den endelige registrerte fordelingen. Et stykke på vei vil feilene slå hverandre ut, på samme måte som når du skal lese et veikart, og legge sammen en rekke små avstandstall for å finne ut hvor langt det er mellom to bestemte steder. Som regel er det likegyldig om du legger sammen hvert tall slik det står, eller forenkler hoderegningen ved å runde hvert av kilometertallene til nærmest mil. Feilen blir sjelden større enn et par tre kilometer.

For mer kompliserte fordelinger kan selv kontrollerte variasjoner gi svært uheldige utslag, noe Srikant og Agrawal erfarte forholdsvis tidlig i sitt arbeid. Derfor utvikler de algoritmer for å korrigere de registrerte fordelingene slik at de legger seg tettere opp til de faktiske. De har ikke villet avsløre noe om disse algoritmene. De mener at feilmarginene i fordelingene som legges til grunn for profileringsmodellen, faller innen akseptable grenser på fem til ti prosent.

Når tjenesten kommer på markedet i profilert utgave, mener Srikant og Agrawal at modellen kan lastes ned til kunden slik at tjenesten legges opp etter de korrekte og kun lokalt registrerte personopplysningene.

Resultatet er at nettstedet får brukbare data til sin modell for kundeprofilering, og kundene får en profilert tjeneste, samtidig som det ikke finnes noe sentralt lager er korrekte personopplysninger.

Idéen er døpt "Privacy-Preserving Data Mining". Du finner mye bakgrunnsmateriale ved å søke etter denne tekststrengen på internasjonale søkemotorer.

Prosjektet til Srikant og Agrawal er det første kjente prosjektet til IBMs Privacy Research Institute, som fordeler personvernforskning blant IBMs åtte eksisterende forskningmiljøer rundt om i verden. Dette instituttet ble etablert tidligere i år, og skal være bransjens første til å fokusere på teknologi for å fremme personvernet i et næringslivsperspektiv.

Til toppen