Harvard-inkubatoren Social Science One meldte torsdag at de endelig har ferdigstilt, i et tett samarbeid med Facebook, et av de største samfunnsvitenskapelige datasett noensinne satt sammen.

Datasettet selv inneholder mer enn 10 billioner nummer som samler informasjon om ca. 38 millioner URL-er som har blitt delt mer enn 100 ganger offentlig på Facebook (mellom 1. januar, 2017 og 31. juli, 2019). Blant tingene forskere nå har tilgang til å isolere, er om URL-ene har blitt faktsjekket eller rapportert som «hate speech». I tillegg vil de kunne se aggregerte data som inneholder karakteristikkene til de personene som åpner linker, deler disse, reagerer på dem eller ellers samhandler med disse linkene på Facebook.

Muliggjør forskning på effekten sosiale medier har i demokratiet

I torsdagens pressemelding hevder forskerne, Gary King og Nathaniel Persily, at disse dataene «gjør det mulig for samfunnsforskere å studere noen av de viktigste spørsmålene i vår tid, om effekten sosiale medier har på demokratiet og i politiske valg. Denne informasjonen har ikke vært tilgjengelig for allmennheten tidligere.»

Om dette er noe Facebook sine brukere setter pris på, er uvisst. De aller færreste har brukt tjenesten fordi de vil bidra til forskning eller delta i sosiale eksperimenter, og dette er studier man ikke får meldt seg ut av. Alle det er innhentet data fra har blitt anonymisert av Facebook.

Steven Levy, skribent hos Wired, deltok på en Social Science Foo Camp hos Facebook sitt hovedkvarter i Menlo Park, California, der han silte Nathaniel Persily et spørsmål om nettopp hvorfor Facebook bør frigi dataene til sine brukere.

– Vi lever nå i et samfunn hvor de mest viktige dataene relatert til data og kommunikasjon er låst til kun ett selskap, svarte Persily, og bemerket at det er bra for alle at akademikere får tilgang på denne informasjonen.

Et nytt kapittel for Facebook og dataforskning

Social Science One forventet at de skulle klare å forhandle frem en avtale om dette datasettet med Facebook på to måneder, men etter 20 måneder med forhandlinger, er de nå klare til å dele denne informasjonen.

Mye av årsaken til dette er at Facebook, som har en trøblete historie med å vise resultatene av intern forskning, har begynt å trå varsomt rundt hva de deler offentlig. Derfor er torsdagens dataslipp et skritt fremover for Facebook, som nå prøver å bli mer transparente med offentligheten. Spesielt siden det er stor sannsynlighet for at akademikerene finner og publiserer resultater som kan sette Facebook i et dårlig lys.

Den største barrieren for å få prosjektet ferdig, skriver Social Science One, omhandlet Facebook sin tolkning av de relevante privatlivsrestriksjonene som finnes i EUs General Data Protection Regulation (GDPR) og resolusjonen de jobber under med den føderale handelskommisjonen (FTC).

Social Science One hevder at de er uenig i disse lovbestemmelsene, og at ny veiledning fra European Data Protection Supervisor støtter en mer givende tolkning med tanke på akademisk deling av data som kommer offentligheten til gode.

– Men vi er ikke de som nylig måtte betale 5 milliarder dollar som et resultat av Cambridge Analytica-skandalen. Så selv om vi er uenige med den harde linjen Facebook har ført når det kommer til beskyttelse av brukeres privatliv og akademisk datadeling, forstår vi den rettslige konteksten rundt disse argumentene, skriver Social Science One.

Hele pressemeldingen, i tillegg til kodeboken for datasettet, kan leses på Social Science One sine sider.