Utvikler språkteknologi for USAs spioner

Etter terrorangrepene 11. september 2001 planla amerikanske etterretningstjenester et gigantisk prosjekt for elektronisk overvåking, kalt «Total Information Awareness». Prosjektet vakte etter hvert så mye motstand, og var på mange måter så overambisiøs, at det avgikk en stille død for tre år siden.

Les også:

[22.09.2008] Gjennombrudd for søk med naturlig språk
[21.05.2003] Forsvarer omstridt etterretningsprosjekt
[28.02.2003] Pentagon subsidierer forskning i sivil overvåkning

Skrinleggingen av det omstridte programmet innebærer ikke at USAs spioner har gitt opp håpet om nye elektroniske hjelpemidler.

De siste ukene har det kommet fram i amerikanske medier at sikkerhetsdepartementet – Department of Homeland Security – har fordelt til sammen 10,2 millioner dollar til ulike akademiske institusjoner, for avanserte prosjekter innen webovervåking og automatisk innholdsanalyse. Pengene er fordelt under forutsetning av at forskerne også bidrar til å lære opp agentene i å bruke de nye verktøyene.

Departementet har opprettet fire «University Affiliate Centers», i praksis prosjekter som omfatter forskere fra flere akademiske institusjoner, for å forske i avanserte metoder for informasjonsanalyse som kan bidra til å fremme USAs nasjonale sikkerhet.

At amerikanske sikkerhetsmyndigheter tyr til amerikanske institusjoner for denne typen forskning og opplæring, skal være nytt. Årsaken skal være at de ikke disponerer tilstrekkelig med avansert IT-kompetanse i egne rekker. De støter da mot et vanskelig problem: Flertallet av IT-forskere ved amerikanske universiteter og høyskoler er utlendinger, ifølge en uttalelse til New York Times fra Edward Hovey, direktør ved Information Sciences Institute ved University of Southern California, og en av dem som arbeider med prosjekter for sikkerhetsdepartementet. Det innebærer at de ikke kan oppnå den sikkerhetsklareringen som sikkerhetsmyndighetene vanligvis krever.

Hovey sier ellers at han har tatt i mot penger for å etablere en spionskole ved sitt universitet, etter å ha blitt forsikret om at hensikten er å bekjempe terror, ikke å bidra til ulovlig overvåking av den typen overvåkingsorganisasjonen National Security Agency har bedrevet.

Lokalavisa East Valley Tribune i delstaten Arizona forteller om en gruppe ved University of Arizona i Tucson som utvikler metoder for å avdekke og spore terrorgrupper ved å analysere innhold og trafikk på web.

Professor Hsinchun Chen forteller til avisa at han leder et arbeid for å avdekke terroristers bruk av nettsteder, lynmeldere og meldingstavler. Han har varslet myndighetene om terroristers bruk av tjenester fra Yahoo og Google for å komme i kontakt med potensielle rekrutter. Han har også varslet om skjulte nettsteder med for eksempel instruksjonsvideoer om selvmordsattentater med bil. Chen ville ikke si hvilke etterretningsorganisasjoner han leverer materiale til. Avisa har på egen hånd avdekket at han får penger fra flere hold, og at kanalene sjeldent går direkte fra spion til akademiker.

For ti dager siden publiserte nyhetstjenesten til Cornell University en artikkel om et prosjekt som har fått 2,4 millioner dollar fra USAs sikkerhetsdepartement, fordelt på tre år.

Artikkelen fortsetter etter annonsen

annonsørinnhold

– Vi har vår egen ChatPwC som kjører lokalt. Vi deler derfor ingen informasjon ut av huset

Dette prosjektet har et svært langsiktig perspektiv, og antas ikke å gi praktiske resultater før om mange år. Men betingelsene er de samme som i Arizona: Når det er utviklet programvare som kan anvendes i praksis, skal den overgis departementet, og forskerne skal lære opp agentene i hvordan den skal betjenes.

Her skal det lages et datasystem som kan pløye gjennom store mengder med tekst for å skille ut meningsytringer fra fakta, og analysere ytringene med tanke på å varsle om for eksempel spesielt antiamerikanske synspunkter.

Tanken er å utvikle et verktøy som raskt kan varsle sentrale myndigheter om utviklingen av antiamerikanske strømninger i folkeopinionen i andre land. Gruppen ledes av professor Claire Cardie ved Cornell og Janyce Wiebe ved University of Pittsburgh, og omfatter også forskere ved University of Utah. Disse tre universitetene er et eksempel på et «University Affiliate Center» opprettet av sikkerhetsdepartementet.

Utviklingsarbeidet er foreløpig begrenset til engelsk. Det beskrives som en vanskelig øvelse innen analyse av naturlig språk: I motsetning til søketeknologi, krever innholdsanalyse at datasystemet virkelig forstår hva teksten betyr. Et typisk eksempel på beskjeden fallgruve er at utsagnet «denne spagettien er god» må oppfattes som mindre positivt enn utsagnet «denne spagettien er ikke veldig god, den er utmerket». Et annet eksempel er uttrykk som ikke kan tas bokstavelig: Den amerikanske utgaven av «slå to fluer i én smekk» – «kill two birds with one stone» – må ikke tolkes av analyseverktøyet som en voldshandling.

Utviklingsarbeidet omfatter per i dag et korpus av flere hundre artikler hentet fra amerikanske aviser og telegrambyråer, samt utenlandske engelskspråklige kilder som AFP og den pakistanske avisa The Dawn, går det fram av et intervju Cardie har gitt til New York Times. Artiklene er fra årene 2001 og 2002. Emnene omfatter reaksjoner på president George W. Bush’ omtale av «ondskapens akse», USAs internering av fanger i Guantánamo Bay, diskusjonen om global oppvarming og kuppforsøket mot Venezuelas president Hugo Chavez. For å hindre at forsøksmaterialet framstår som i overkant forhåndsutvalg, er det også tatt med artikler som ikke har noe med USA eller terror å gjøre, for eksempel om en rabies-sjuk rev som angrep en ku i Romania.

Den grunnleggende ideen i utviklingsarbeidet er å bruke maskinlæringsalgoritmer for gradvis å trene systemet til å skille meningsytringer fra fakta, og for å skille ut negative ytringer om utvalgte emner.

En innfallsvinkel for å skille fakta fra ytringer, er å kartlegge formuleringer som ofte brukes for å signalisere at teksten inneholder et synspunkt. Blant slike formuleringer er «according to» og «it is believed», men også, ironisk nok, «it is a fact that…», ifølge Cardies intervju med nyhetstjenesten til Cornell.

Det er meningen at alle varsler skal utstyres med en automatisk generert vurdering av hvor pålitelig den kan tenkes å være – såkalt «confidence rating» – og ha en lenke til den opprinnelige artikkelen, slik at denne kan vurderes direkte.

Artikkelen fortsetter etter annonsen

annonse

På trappene til internasjonal suksess

Verktøyet vil også kunne brukes til automatisk å spore uttalelser fra bestemte individer, grupper eller organisasjoner.

Ifølge New York Times skal det framtidige verktøyet brukes til å analysere utenlandsk innhold på web. Selv den svake amerikanske personvernlovgivningen skal være til hinder for å bruke den på amerikanske medier. At overvåkingen kan tenkes å krenke utlendingers personvern, er derimot ingen hindring.

Journalistorganisasjoner i USA, blant dem Reporters Committee for Freedom of the Press, reagerer negativt på perspektivene som verktøyet reiser. Også personvernorganisasjoner, blant dem Electronic Privacy Information Center, har reist bust.

Cardie og Wiebe sier til New York Times at de er innforstått med at det er legitime grunner til å stille seg kritisk til arbeidet deres. Wiebe mener teknologien fordrer klare retningslinjer for hvordan den skal brukes. På den andre siden håper hun den kan hjelpe USAs regjering til en bedre forståelse av verden.

Og det kan jo saktens trengs.

Utvikler språkteknologi for USAs spioner

USAs sikkerhetsdepartement finansierer forskning for automatisk analyse av innhold på web.