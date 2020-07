«Ok, cool», «city» eller «tobacco». Det er bare noen av de mer enn 1000 ord som kan aktivere en taleassistent som Alexa, Cortana, Echo eller Siri.

Normalt er det kun få aktiveringsord, som Siri eller Alexa, som man forbinder med denne typen trigger-ord – men nå viser det seg at stemmestyringsassistenter reagerer på langt flere ord enn tidligere antatt.

Det viser resultater fra Ruhr-Universität Bochum (RUB) og Bochum Max Planck Institute (MPI) for Cyber Security og Privacy.

De fleste stemmestyringssystemer aktiveres i en totrinnsprosess, hvor et potensielt trigger-ord først analyserer lokalt. Hvis systemet tror det er snakk om et trigger-ord, sender det en kort lydsnutt til en skyløsning hos produsenten, som så foretar en ny vurdering.

Hvis man her vurderer at det er snakk om et falskt trigger-ord, går systemet tilbake i dvale. Selv om det er snakk om falske trigger-ord, ender altså en lydfil fra stuen opp hos teknologigigantene, der de ofte transkriberes manuelt for å trene systemet.

I undersøkelsen har de tyske forskerne funnet over 1000 ord på engelsk, tysk og kinesisk som aktiverer stemmestyringen, selv om de slett ikke er definert som trigger-ord.

Her er analysen på Github

Har sett Game of Thrones

Konkret har forskerne undersøkt stemmeassistenter fra Amazon, Apple, Google, Microsoft, Deutsche Telecom og tre kinesiske assistenter fra Xiaomi, Baidu og Tencent.

De har spilt av timesvis med både engelsk, tysk og kinesisk lyd, blant annet flere sesonger av seriene Game of thrones, Modern family og House of cards, i tillegg til at det er spilt av profesjonelle datasett med lyd som normalt brukes til å trene smarthøyttalere.

Undersøkelsen er gjennomført ved å registrere når systemet aktiveres (det lyser en liten lampe), og så har forskerne lyttet til den lydsekvensen som kommer like før aktiveringen.

Avhengig av uttalen aktiveres Amazons Alexa for eksempel på ord som «unacceptable» og «election», mens Google reagerer på ord som «OK, cool».

Apples Siri kan forvirres med ordet «a city», Microsofts Cortana av «Montana» og Echo med «tobacco».

– Enhetene er med hensikt programmert til dette, fordi de skal være istand til å forstå mennesker. Derfor har de en tendens til å starte opp for ofte heller enn ikke i det hele tatt, sier professor Dorothea Kolossa, professor ved Ruhr-Universität Bochum, Horst Görtz Institute for IT Security (HGI) i en pressemelding.

Ved å analysere de umiddelbare trigger-ordene, har forskerne funnet en rekke andre ord som på tilsvarende måte aktiverer stemmestyringen.

«Fra et privatlivsperspektiv er det selvfølgelig alarmerende, fordi mange private samtaler kan ende hos fremmede. Fra et ingeniørperspektiv er denne fremgangsmåten likevel rimelig forståelig, fordi systemet kun kan forbedres med denne typen data. Produsentene må finne en balanse mellom databeskyttelse og teknisk optimalisering, sier Thorsten Hotlz, professor ved Ruhr-Universität Bochum.

