Talesyntese og taleattkjenning

Talesyntese og taleattkjenning kan med eit overomgrep kallast taleteknologi. Nå skjer det ei rivande utvikling på dette feltet som vedkjem oss alle.

Salet av smarthøgtalarar fyk i vêret, og allereie i dag er det mogleg å styre til dømes kjøkenmaskinar, lyssetjing og andre innretningar i heimane våre berre med røysta.

Syntese er eit gresk ord med den opphavlege tydinga ‘samansetjing’. Talesyntese dreier seg om å setje saman små lydelement til større einingar og slik produsere tala språk, gjerne med utgangspunkt i tekst. Denne artikkelen forklarer korleis teknologien bak talesyntese verkar. Tekst-til-tale-teknologi har vore i bruk lenge. Før var det gjerne ei typisk datarøyst som las opp teksten, men nå liknar den syntetiske talen stadig meir på ekte menneskeleg tale.

Taleattkjenning, det vil seie teknologi som kan oppfatte og tolke menneskeleg tale, er på eit vis det motsette av talesyntese. Slik teknologi gjer det mogleg å styre dataprogram ved å snakke til dei. Siri frå Apple og Google Assistant er eksempel på praterobotar eller digitale assistentar som bruker både taleattkjenning og talesyntese, og som gjer det mogleg å søkje etter informasjon og utføre oppgåver utan å ta hendene vekk frå det ein driv med.

Når nye verktøy og funksjonar blir lanserte, fungerer dei ofte berre på engelsk. Støtte for norsk finst gjerne ikkje, og der det finst, fungerer det ikkje så bra som ein kunne ønskje. Skal produktutviklarane kunne bøte på det, er det heilt avgjerande at dei får tilgjenge til store mengder norske språkdata – tekstar og taleopptak av ulike slag – på bokmål, nynorsk og dialekt. Spørsmålet om korleis vi best sikrar at taleteknologien fungerer på norsk, var eit av temaa på Språkdagen 16. mars.

Publisert 16. mars 2018

Del denne siden