Er fremtiden her?

AV TORE BURHEIM

En reklamekampanje på norsk fjernsyn vinteren 2000 viste en gutt som kom bort fra sine foreldre på det travle markedet i Marrakech. Vi så en redd gutt som lette i gater og smug før han møtte to vennlige politimenn. Men det var ikke lett for gutten å formidle problemet, for han snakket bare norsk og politimennene bare arabisk. Løsningen var en mobiltelefon. Gutten fikk låne den ene politimannens telefon og ringte til den andres, og etter at gutten hadde valgt språk, ble samtalen mellom han og politimannen simultanoversatt. Mobiltelefonen produserte en klar syntetisk stemme som indikerte at dette var teknologi, ikke et menneske. Reklamen ble avsluttet med frasen «Fremtiden er fantastisk» og navnet på mobiloperatøren.

Hvor langt fra dagens virkelighet er et datasystem som oversetter en vilkårlig telefonsamtale mellom norsk og arabisk på direkten?

For å lage et slikt system trenger man tre bestanddeler: en del som gjenkjenner det gutten sier, talegjenkjenning, en del som oversetter det han sier, maskinoversettelse, og en del som uttaler den teksten som oversettelsen produserer, talesyntese. Talegjenkjenning og talesyntese er taleteknologi, som igjen er en disiplin innenfor språkteknologien, mens maskinoversettelse ofte regnes som en egen disiplin. Vi skal her se litt på status for taleteknologien i dag og prøve å besvare spørsmålet om fremtiden er her.

Taleteknologi

Taleteknologi skiller seg fra andre deler av språkteknologien ved at den forholder seg til språk i form av lyd. Vi deler taleteknologi i to hoveddeler: talesyntese og talegjenkjenning. Talesyntese er produksjon av tale fra vilkårlig tekst. Datamaskinen leser teksten og omgjør resultatet til lyd. Talegjenkjenning er det motsatte, nemlig produksjon av tekst fra tale. Maskinen gjenkjenner det som sies, og skriver det ned.

Den viktigste egenskapen ved talesyntese er at den kan lese vilkårlig tekst, inkludert nye og ukjente ord. Dette er noe annet enn sammenkjeding av innleste ord og fraser slik vi møter det når vi ringer tradisjonelle tastebaserte telefontjenester, som bankens tastafon: «Disponibel saldo er – ett – tusen – tre – hundre og – femti – fire – kroner». Slik sammenkjeding gir god kvalitet, men er svært lite fleksibel. Ønsker man å endre litt på det som sies, må man inn i lydstudio og lese inn på nytt, og dersom den som leste inn forrige gang, ikke er tilgjengelig, må alt gjøres om igjen. Talesyntese derimot håndterer vilkårlig tekst. Den oversetter først teksten til lydskrift ut fra en ordliste og regler for omskriving, og deretter gjør den om lydskriften til lyd. I tillegg til lydskriften har den også markering av trykk, intonasjon og andre språklige elementer.

Det finnes i dag to hovedtyper talesyntese: formantbasert syntese og konkatenativ syntese. Forskjellen ligger i måten å produsere lyd fra lydskrift på. I formantbasert talesyntese prøver man å modellere produksjonen av lyd slik det skjer i halsen og munnhulen på et menneske. Dette gir store muligheter for å kunne variere stemmen generelt i form av lys/mørk stemme, men også i form av trykk og intonasjon. Imidlertid er denne modelleringen ganske vanskelig, og resultatet er som oftest metalliske «datastemmer». For kommersielle systemer i dag regnes ikke slik syntese for å være god nok.

Konkatenativ syntese derimot bygger på at man tar stemmen fra en virkelig person og bruker den til å produsere ny tale. Metoden er beslektet med de tradisjonelle systemene som vi kjenner fra tastebaserte telefonsystemer, bortsett fra at delene som limes sammen, er betraktelig mindre. For å kunne lage konkatenativ syntese tar man en del timers opptak av en person og klipper opptakene opp i lyder og lydoverganger (subfoner og difoner). Alle mulige lyder og lydoverganger i språket må være dekket. De ulike lydene merkes med ulike egenskaper, og alt lagres i en database. Når man så skal produsere lyd fra lydskrift, søker man i databasen og plukker de lydopptakene som passer best. Graden av nøyaktighet ved klippingen av de opprinnelige opptakene, valg av lydopptak og måten å kjede dem sammen på påvirker kvaliteten. Denne metoden gir i dag vesentlig bedre stemmekvalitet enn formantbasert talesyntese, og så godt som samtlige nye kommersielle talesynteser er konkatenative synteser. På norsk finnes bare én slik stemme kommersielt tilgjengelig i dag. Stemmen ble laget av Nordisk Språkteknologi i samarbeid med Lernout & Hauspie. Stemmen, som har en klar sunnmørsdialekt, brukes i flere ulike kommersielle systemer. Det er imidlertid grunn til å anta at det vil komme nye kommersielt tilgjengelige konkatenative talesynteser for norsk i nær fremtid. Etter hvert som metodene for å bygge slike talesynteser blir mer automatisert, vil produksjon av nye stemmer kunne gjøres enklere. Det er derfor all grunn til å tro at ulike institusjoner og bedrifter vil få en stemmeprofil på samme måte som de i dag har en grafisk profil.

Talegjenkjenning er det motsatte av talesyntese. Denne prosessen skal omgjøre tale til tekst. Det finnes to hovedgrupper av talegjenkjenning i bruk i dag: dikteringssystemer og allment tilgjengelig talegjenkjenning. I diktering skal hvert ord som brukeren sier, reproduseres som tekst i maskinen, og hvert av disse ordene skal kunne plukkes fra et stort, innlagt vokabular. Dagens dikteringssystemer håndterer vanligvis vokabular på ca. 100 000 ord. Når så mange ord kan komme i tilnærmet tilfeldig rekkefølge, er dette vanskelig for maskinen. Derfor krever disse systemene tilpasning til den enkelte brukers stemme. Alle brukere må gjennom en prosedyre som etablerer en stemmeprofil på maskinen som hjelper systemet med å gjette hva brukeren sier. Etablering av slike profiler tar i dag ca. 15 minutter, mens det gjerne tok mer enn en time for to–tre år siden. Dikteringssystemer har vist seg mest anvendelige for brukergrupper som er vant til diktering, f.eks. innenfor medisin og juss. De som ikke er vant til å diktere, erfarer at det ikke er så enkelt som man skulle tro.

Allment tilgjengelig talegjenkjenning er basert på at systemet skal gjenkjenne hva som sies, uavhengig av hvem som snakker, det være seg en tenåringsjente eller en godt voksen mann. For å kunne håndtere denne store variasjonen må man som oftest på forhånd ha definert hva brukeren kan si. Selv om mange allmenne gjenkjenningssystemer kan håndtere vokabular på opp mot 100 000 ord, kan ikke disse ordene komme fortløpende etter hverandre. Systemene kan klare å skille mellom 100 000 ord som uttales isolert, og 100 000 ulike setninger som uttales hver for seg, for eksempel i en dialog med datamaskinen. Ved de fleste anvendelser er man ikke avhengig av å gjenkjenne nøyaktig det brukeren sier, bare meningsinnholdet i forhold til anvendelsen blir riktig. De gjenkjenningsmodellene som brukes, er tilpasset brukersituasjonen, slik at man har ulike modeller for telefoni og for programvare med mikrofoner koblet direkte til datamaskinen. I dag er det modeller laget for telefoni som er mest utbredt.

Talegjenkjenning lages ved at man samler inn taleprøver fra noen tusen personer (informanter), skriver ned nøyaktig det de sier, i lydskrift, for så å bygge store statistiske modeller basert på disse tekstene. Når maskinen skal finne ut hva en bruker sier, sammenligner den lydsekvensen fra denne brukeren med det som finnes i den statistiske modellen, og foretar en kvalifisert gjetning.

Kombinerer man talesyntese og talegjenkjenning med prosessering av det som gjenkjennes, får man det som kalles talebaserte dialogsystemer. Da kan man bygge systemer der brukeren har en naturlig dialog med datamaskinen. Slike systemer er emnespesifikke og gjerne laget for bestemte formål, for eksempel for å formidle aksjekurser eller for å betale regninger. Å lage gode dialogsystemer er en betydelig utfordring i seg selv. Hvilke svar brukeren gir, avhenger selvfølgelig av hvilke spørsmål systemet stiller, og av hvordan systemet stiller dem, og jo sikrere vi kan være på hvordan brukeren formulerer seg, jo lettere er det å gjette hva han sier. Samtidig skal systemene være raske å bruke og behagelige og forståelige for både nye og erfarne brukere. Å kombinere alle disse ønskene er vanskelig.

Taleteknologi omfatter også to andre sterkt beslektede disipliner, nemlig taleridentifisering og talerverifisering. De brukes til å finne ut hvem som snakker, og til å fastslå at vedkommende som snakker, faktisk er den han/hun gir seg ut for å være. Dette er viktig i det øyeblikk man skal bruke taleteknologi i systemer der man må vite sikkert hvem brukeren er, for eksempel i banksystemer. Her drar man nytte av det faktum at en persons stemme er like personlig som hans fingeravtrykk.

Taleteknologi og dialekter

Et spørsmål mange stiller, er om taleteknologien er en trussel mot dialektbruk og dialektvarianter. I denne sammenhengen er situasjonen noe forskjellig for talesyntese og talegjenkjenning.

Når det gjelder talesyntese, vil industrialiseringen og effektiviseringen innenfor produksjon av nye stemmer åpne for å bruke en lang rekke ulike stemmer og dermed også ulike dialekter. Det er ikke utenkelig at regionale bedrifter vil velge en stemme med en dialekt fra sin egen region når de skal lage sitt talesystem, eller at store konsern – for eksempel forsikringsselskaper – vil ha flere stemmer i sine telefonisystemer og la systemet velge stemme ut fra hvor brukeren ringer fra. Ringer man fra Trøndelag, får man en trønderstemme, osv.

For talegjenkjenning er dialektvariasjon knyttet til kvalitet. Når man måler kvaliteten på talegjenkjenningssystemer, måler man blant annet hvor stor andel av brukerne som blir riktig gjenkjent. For å kunne gjenkjenne alle korrekt må systemet kjenne til alle uttalevarianter, deriblant dialektvarianter. Når man lager de grunnleggende komponentene i talegjenkjenningssystemer – talegjenkjenningsmodellene – samles taleprøver fra noen tusen personer (informanter). Disse prøvene må inneholde et bredt uvalg i forhold til dem som skal bruke systemet. Det vil si at når man samler inn slike data, er det viktig å få bred fordeling både når det gjelder kjønn, alder og dialekt dersom systemet skal kunne brukes av alle. Det betyr at så lenge brukerne sier ord som systemet forventer, skal ikke dialektbakgrunn ha noe å si. Når det gjelder ordforråd, er det imidlertid en viktig distinksjon. For alle gjenkjenningssystemer må ordforrådet i dag være forhåndsspesifisert. Det vil si at dersom systemet skal forholde seg til dialektuttrykk og dialektspesifikke ord, må disse spesifiseres i systemet. Skal for eksempel systemet gjenkjenne navnet på Norges tredje største by og systemet skal brukes av dem som bor i den byen, må både Trondhjem og Trondhjæm være spesifisert i tillegg til Trondheim.

I Norge vil med andre ord kvalitet i talegjenkjenningssystemer være knyttet til systemets evne til å håndtere dialektvariasjon. Når det gjelder ordforrådet, er man avhengig av at ordene spesifiseres i systemet. Samtidig vil muligheten for feil øke ettersom man definerer flere ord i systemet, og for mange ord gir for høy feilrate.

Taleteknologiske anvendelser

En grunnleggende egenskap ved taleteknologi er at den frigjør øyet og hendene når vi skal ha tilgang til datasystemer. Mens vi i dag er avhengig av å se på en skjerm eller tilsvarende for å få ut informasjon og trykke på et tastatur eller på knapper for å mate systemet, vil taleteknologien gjøre at vi kan kommunisere med datasystemene ved hjelp av talt språk. Dette gjør anvendelsen vesentlig mer fleksibel, og vi kan få tilgang til datasystemer i situasjoner der det i dag ikke er mulig.

Et av de viktigste anvendelsesområdene for taleteknologi i dag er innen telefoni, særlig telefonbaserte kundesentre. Store selskaper som banker, trafikkselskaper, telefonoperatører, forsikringsselskaper og lignende har i dag mange hundre ansatte som sitter og svarer på telefoner fra kunder. Som oftest opplever vi som kunder å måtte stå i kø for slike tjenester, samtidig som kundebehandlerne blir lei av å svare på de samme spørsmålene om igjen og om igjen. Svært mye av dette kan erstattes av talebaserte dialogsystemer. På denne måten vil kunden slippe å stå i kø, de som jobber på kundesentrene, vil få større variasjon i jobben ved at rutineoppgavene er fjernet, og bedriften blir bedre tilgjengelig ved at systemet er operativt 24 timer i døgnet. Av systemer som er i drift i Norge sommeren 2001, kan vi nevne det nylig innførte flyinformasjonssystemet i SAS og ruteinformasjonssystemet i NSB. Braathens har et prøvesystem under intern evaluering. Ringer man Telenors feilmelding, er den gamle «tast 1 for privatabonnement, tast 2 for bedriftsabonnement» erstattet med «Hvis henvendelsen gjelder et privatabonnement, si: privat. Hvis henvendelsen gjelder et bedriftsabonnement, si: bedrift.» Her har man rett og slett byttet ut tastene med en meny der brukeren navigerer ved hjelp av stemmen.

Men språkteknologien vil også gi oss nye produkter og tjenester. Telenor Mobil har etablert en taleportal der brukerne ringer et nummer og kan få en rekke tjenester, blant annet nyheter og aksjekurser. Taleportaler er felles tilgang til talebaserte tjenester på samme måte som vi kjenner til webportaler i dag. Et annet eksempel på en helt ny tjeneste er at Nordisk Språkteknologi sammen med VG har etablert en tjeneste for talte SMS-beskjeder som ringes ut til mottakerne.

Når det gjelder diktering, er det så langt ikke noe system eller produkt tilgjengelig på norsk. Selv om dikteringsprodukter finnes på svensk og noen andre mindre språk i tillegg til alle de store språkene, er det lite som taler for at dikteringsprodukter vil bli hyllevare i Norge i nærmeste fremtid. Dette henger sammen med at det ikke er noen som har tjent penger på å lage dikteringsprodukter for massemarkedet, selv ikke for store språk som engelsk og spansk. Høye utviklingskostnader kombinert med en lav produktpris (normalt ca. 100 dollar) og høy brukerterskel gjør at dikteringsprodukter neppe blir så utbredt som man kunne tro. Imidlertid har diktering et stort potensial innenfor bestemte sektorer. De to viktigste er helse og juss. Innenfor helesektoren er man allerede vant til diktering og har rutiner og arbeidsflyt i tilknytning til dette. Samtidig vil dikteringssystemer kunne føre til betydelige innsparinger og effektivisering. Ved å integrere dikteringssystemer i andre systemer på sykehus, som elektroniske journalsystemer og arbeidsflytsystemer, kan man oppnå betydelig effektivisering. Denne effektiviseringsgevinsten gjør dikteringssystemer interessante for både leverandører og kunder i helsesektoren.

For handikappede er bruksområdene utallige – det være seg løsninger for å kunne styre husholdningsartikler via stemmen, skjermleser for blinde eller tilgang til en stemme for dem som har mistet evnen til å snakke, for bare å nevne noen. Det viktigste her er at taleteknologien kan gi handikappede vesentlig forbedret livskvalitet. Dette siste er for mange en viktig drivkraft som gir mening ut over den allmenne teknologiutviklingen.

Fremtiden kommer hver dag

Innledningsvis stilte jeg spørsmålet om det er mulig å få systemer som oversetter vilkårlige telefonsamtaler på direkten, slik vi så det i forbindelse med gutten i Marrakech. Et tema jeg ikke har berørt i den forbindelse, er maskinoversettelse. Maskinoversettelse av vilkårlig tekst innen et vilkårlig emne uten mulighet for korrektur er svært vanskelig. Selv om det er demonstrert systemer for tale-til-tale-maskinoversettelse innenfor begrensede områder, som flybestilling, er det en del grunnleggende problemer rundt maskinoversettelse som gjenstår å løse. Det vil derfor ta noen år før systemer som oversetter en vilkårlig telefonsamtale på direkten, blir allment tilgjengelige. Imidlertid kan vi se for oss tale-til-tale-maskinoversettelse innen begrensede områder om ikke så altfor lenge.

Med den fremgang taleteknologien har hatt de siste ti årene, står vi fremfor et paradigmeskifte i forhold til interaksjonen mellom menneske og maskin. Ved at man kan snakke med maskinen, åpner man for en helt annen fleksibilitet enn når man er avhengig av skjerm og tastatur. For mange betyr dette vesentlig forbedret livskvalitet, mens det for andre betyr økt fleksibilitet og en lettere hverdag. Uansett vil den endre vårt dagligliv i løpet av de neste årene.

-- Tore Burheim er avdelingsleiar i Nordisk Språkteknologi – NST.

Del denne siden