Interessant patent til amerikansk overvåkningsorgan

USAs overvåkningsorgan NSA har patent på en prosedyre som automatisk gjenkjenner emnet for en tekst selv om teksten utelater ord i emnedefinisjonen. Tyske personvernaktivister mener patentet dreier seg om overvåkningssystemet Echelon.

Det dreier seg om "United States Patent 5,937,422". Patentet ble innvilget 10. august 1999. Søknaden er datert 15. april 1997.
Les hele patenten:
NSA-patent på automatisk prosedyre for å gjenkjenne emnet til en tekst
I beskrivelsen av formålet med "oppfinnelsen", heter det at det dreier seg om "å automatisk generere en beskrivelse av emnet for en tekst, og for å søke i og sortere tekst etter emne."


Det presiseres at den automatisk genererte emnebeskrivelsen skal kunne inneholde ord som ikke finnes i det opprinnelige dokumentet.

Metoden skal også brukes på tale. Den skal være generell nok til å kunne anvendes på ethvert språk. Den skal gjelde "dokumenter av enhver tekstlengde, der teksten opphavelig kan være tale, og der teksten kan være på ethvert språk."

Dette er en stor utfordring. Som det heter i patentet: "Å identifisere emnet til tekst er noe man har forsket på i mange år. Gjenkjenning av emner i vanlig tale har vært gjenstand for økende interesse. Dette er imidlertid vanskeligere enn tekst siden mye av informasjonen formidlet i tale aldri uttales direkte, og siden ytringer ofte er mindre sammenhengende enn i skriftlig språk."

Patentet slår fast at dokumentet må mottas som tekst, men at opphavet til teksten kan være hva som helst. Automatisk gjenkjent tale nevnes spesielt som et mulig opphav.

Det nevnes mange mulige anvendelser for teknologien: grensesnitt mot datasystemer med ulike formål, på kontorer, sykehus, produksjonslokaler osv; grensesnitt mot søkesystemer; prosessering av naturlig tale, etterbehandling av tekst fra systemer for automatisk talegjenkjenning; maskinoversettelse med mer.

Grensesnitt mot søkesystemer er spesielt interessant, fordi søkeren kan lage en tekst som beskriver hva man er ute etter, få systemet til å generere en emnebeskrivelse, og så hente fram dokumentene som svarer best til denne emnebeskrivelsen. Hvis teknologien holder det den lover, kan søkets emnebeskrivelse omfatte fagterminologi som søkeren selv ikke bruker i sin opprinnelige beskrivelse.

Den tyske tjenesten q/depesche som har interessert seg spesielt for Echelon og Enfopol, kopler NSA-patentet med Echelon. Dette er helt naturlig: Dokumentasjonen som hittil er framlagt om Echelon tyder på at materialet som avlyttes gjennom dette globale systemet, ender opp hos NSA, stort sett ubehandlet.

digi.no følger Echelon løpende. Les blant annet disse artiklene:
Ifølge q/depesche er patentet et bevis på at NSA disponerer teknologi for å skanne telefonsamtaler og e-post-meldinger etter innhold. Det pekes også på at teknologien kan være ytterligere forbedret siden patentsøknaden ble levert for nærmere to og et halvt år siden.


Det at teknologien kan avsløre innholdet i en tekst selv om teksten bevisst unngår å bruke bestemte nøkkelord, er selvfølgelig en viktig egenskap hvis teknologien skal brukes til et automatisert system for overvåkning og avlytting, noe Echelon antas å være. Teknologien må også antas å ha den egenskapen at den kan avsløre tekster der "farlige" nøkkelord som "bombe", "terrorisme" og liknende brukes tilfeldig, uten sammenheng med det øvrige eller egentlige innholdet. I så fall har aksjonen forrige måned, der aktivister sendte masse e-post til hverandre med nettopp slike farlige ord øverst i meldingen for å "jamme" Echelon, vært forgjeves.

Det q/depesche ikke kommenterer, er den omstendelige prosessen som patentet beskriver, der telefonsamtaler først må kjøres gjennom en talegjenkjenner og så gjennom emnegjenkjenningssystemet. Skrekkvisjonen om Echelon forutsetter at dette skjer i sanntid.

Språkteknologiforsker Erik Harborg fra Sintef sier til digi.no at automatisk generering av emnebeskrivelser er et felt han og mange andre forskere har vært opptatt av, med tanke på helt andre anvendelser enn overvåkning. Men han bekrefter at overvåkning er en mulig anvendelse av denne teknologien.

Til toppen