Microsoft med stort gjennombrudd innen talegjenkjenning

Har blitt like dyktig som mennesker.

Microsofts nye gjennombrudd innen talegjenkjenning vil komme blant annet brukerne av Cortana til gode. Bilde: Microsoft

19. okt. 2016 - 12:55

Microsoft kunngjorde i går at forskere og teknikere ved Microsoft Artificial Intelligence and Research har oppnådd det selskapet kaller for et historisk gjennombrudd innen talegjenkjenning.

I en anerkjent og standardisert test har videreutviklet talegjenkjenningsteknologi fra Microsoft oppnådd et resultat som er minst like godt som det mennesker vanligvis er i stand til å greie, når de skal transkribere den samme samtalen.

Les også: Nå kan du bytte til et mobiltastatur som etterligner hjernen

Trodde det ikke var mulig

Perfekt er det fortsatt ikke. Ordfeilraten til systemet var i testen på 5,9 prosent, noe som skal være det beste resultatet noensinne i sentralborddelen av NIST 2000-testen. I CallHome-delen, hvor venner og familie har åpne samtaler, ble resultatet en ordfeilrate på 11,3 prosent.

Forskerteamet hos Microsoft skal ha satt seg dette som mål for under et år siden og trodde da at det ville bli oppnådd innen tre år. Tidligere har de vært i tvil om det i det hele tatt var mulig.

– Selv for fem år siden ville jeg ikke ha trodd at vi kunne oppnå dette. Jeg ville ikke ha trodd det ville være mulig, sier Harry Shum, sjef for Microsoft Artificial Intelligence and Research-gruppen, i et blogginnlegg.

Tidligere milepæler innen taleteknologi, sett med Microsofts øyne. Foto: Microsoft

Microsoft anser dette som en viktig milepæl i et arbeid som har pågått siden DARPA startet med talegjenkjenning tidlig på 1970-tallet. Siden da har de fleste store teknologiselskaper, i tillegg til ulike forskningsinstitusjoner, vært aktive innen dette feltet.

Viv: Først solgte han Siri til Apple. Nå har Dag Kittlaus solgt sitt nye eventyr til Samsung.

Tilgjengelig verktøy

Systemet som Microsoft-forskerne benytter, Computational Network Toolkit, er utgitt som åpen kildekode. Det som til slutt førte til denne milepælen, er bruken av nevrale språkmodeller hvor ord blir representert som kontinuerlige vektorer i rommet, og hvor ord som «fast» og «quick» befinner seg nær hverandre. Dette lar modellen generalisere godt fra ord til ord.

Microsoft har klare planer om å ta i bruk teknologien i produkter som den digitale assistenten Cortana.

Bing Concierge Bot: Også Microsoft bygger mer intelligent, personlig assistent

Ikke det samme som forståelse

Det er likevel stor forskjell mellom å kunne gjenkjenne det akustiske signalene som mennesker uttaler, og å forstå betydning av det som blir sagt. På dette området er det fortsatt mye som gjenstår.

Men ifølge Shum er vi på vei fra en verden hvor mennesker må forstå datamaskiner, til en verden hvor datamaskiner må forstå oss. Han mener likevel at virkelig kunstig intelligens er langt unna.

– Det vil være mye lenger fram i tid før datamaskiner kan forstå den virkelige betydningen av hva som blir sagt eller vist, avslutter han.

Leste du denne? Skriver tre ganger raskere med talegjenkjenning enn med tastaturet

Bedriftsteknologi Forskning Kunstig intelligens Microsoft Nevrale nettverk talegjenkjenning

Kommentarer:

Du kan kommentere under fullt navn eller med kallenavn. Bruk BankID for automatisk oppretting av brukerkonto.

Se flere jobber