- Glottisen din avslører deg!

Ta i bruk glottisen din og jeg skal - med litt hjelp av en datamaskin - si deg hvor du kommer fra, hvilken utdannelse du har, hvor rik du er, hvilken golfklubb du er medlem av, ja, til og med hvilket fotballag du heier på.

Det skal dreie seg om talegjenkjenning, en fast gjenganger i medienes populærvitenskapelige spalter. Omtaler av denne teknologien varierer gjerne fra "rett rundt hjørnet" til "lysår unna". Riktig svar er at begge deler er sant. La oss derfor se på de virkelige utfordringene databasert talegjenkjenning står overfor. De har nemlig forbausende lite med ren tale å gjøre. Glottis er for øvrig den korrekte betegnelsen på stemmeleppene, et viktig organ for menneskelig tale.

Overdreven nasalisering, sterk grad av velarisering på grensen til glottalisering, resiprok assimilasjon og ekstremtrykk på nest siste stavelse. Pluss en nærmest panisk redsel for objektformen "dem". Nei, det dreier seg ikke om en diagnostisert talefeil, men en språkfaglig beskrivelse av talemålet i enkelte steder av Oslo vest.

Sagt på en mer folkelig måte: Vest-kantfolk snakker i nesa, de trekker ofte sammen ordene og samler dem på en nærmest grøtete måte oppunder bakre del av ganen; samtidig som de så å si aldri uttaler et ord uten overdrevent trykk på nest siste stavelse - internasjonaliseeeeering! Frykten for å bruke ordet "dem", som ofte brukes om både "de" og "dem" lenger øst i byen, har gjort at ordet er så å si utradert i vestkantsosiolekten.

Faktum er at det er denne delen av språket, fonetikken, altså det som har med det rent uttalemessige å gjøre, som er den enkleste å simulere for datamaskinene. Det hele koker ned til at det tross alt er et begrenset, om enn stort, antall muligheter for hvordan taleorganene våre kan vri og vrenge på seg. Å få en datamaskin til å høre forskjell på et ord uttalt på vestkant- eller østkantvis er derfor ikke spesielt vanskelig. Heller ikke å skille mellom dialekter og språk.

Det nest vanskeligste, men heller ikke det uoverkommelig, er å få datamaskinen til å kjenne igjen og bygge setninger. Ethvert språk har et antall syntaktiske regler, riktignok med et uttall variasjonsmuligheter, men datamaskiner er som kjent veldig glad i regler.

Det er når man kommer til ytterkantene av den rent analytiske språkvitenskapen, lingvistikken, at man støter på de virkelig store problemene. Å gå i detalj her er fortsatt en doktorgrad eller to verdig, så la meg gjøre det enkelt: Språk fungerer i sammenhenger. Lyder, ord, setninger og ytringer som er helt identiske kan ha vidt forskjellige betydninger og konsekvenser avhengig av sammenhengen.

Tenk over hvor mye av det vi sier som er situasjonsbestemt, og da mener jeg situasjonsbestemt i videste betyding. For en ting er at ett og samme ord kan ha vidt forskjellig ut fra svært små variasjoner i kontekst: Hvem du er sammen med, hvor du akkurat har vært, hvilken tid på dagen det er, hva du har på deg, om du er våt i håret - det finnes et nærmest uendelig antall kombinasjonsmuligheter. Ikke glem at variasjonene må kartlegges helt til minst språklyd - pluss mangel på språklyd, for den saks skyld.

Far: - Har du gjort alle leksene dine til i morgen?

Sønnen: - Æhh, ja...

Maskinen må altså ikke bare tolke nølingen og de ikke-språklige lydene i svaret, den bør strengt tatt også tolke blikket til poden, ja, kanskje til og med "lese" hva han gjør med hender og føtter. At en datamaskin skulle kunne tolke alt slikt i et kontekstunivers av nærmest ubegrenset størrelse virker smått utrolig. Men vi skal som kjent aldri si aldri.

Semantikk og pragmatikk er to av fagområdene som dekker de mer adferdsorienterte delen av språket vårt. Semantikk ser på betydning av ord, mens pragmatikk dreier seg om alt som har med kontekst å gjøre.

Lese mellom linjene, undertekst, kaller man det i skriftspråkets verden. Dermed kan det godt hende at jeg egentlig mener "dra til helvete" når jeg avslutter denne raljeringen med det sedvanlige "ha en god dag"...

Til toppen