Sanker språkstemmer

No image

– Framtida for norsk språkteknologi ser lys ut, sier professor Koenraad De Smedt. Men vi trenger mye mer data på norsk.

AV KRISTINE EIDE OG OLE VÅGE

Ny språkteknologi blir stadig «smartere», men foreløpig virker teknologien bedre på engelsk enn på norsk. Koenraad De Smedt, professor i datalingvistikk ved Universitetet i Bergen, har tanker om det norske språkets plass i språkteknologien.

– Jeg synes framtida ser lys ut. I Norge er man bevisst på hvor viktig det er å ha IKT på norsk, i motsetning til i mange andre land. Se for eksempel på Malta, der myndighetene ikke er interessert i språkteknologi på maltesisk, men bare på engelsk. Men nordmenn har positive holdninger til sitt eget språk. Norsk står sånn sett sterkt, sier De Smedt.

– Men det kan være vanskelig å få tak i nok norske språkdata fra ulike domener. Det er en utfordring i utviklingen av gode IKT-løsninger, for eksempel automatiske oversettelser.

Norge er en svært liten del av verdensmarkedet. Likevel er smarthøyttaleren Google Home kommet i norsk versjon. Kan vi ikke bare stole på at store aktører som Google og Amazon utvikler teknologien og produktene for oss?

– Det er klart at vi må koble oss til noen større internasjonale datasystemer, men vi må også takle en del oppgaver selv, ikke minst på grunn av sikkerhet. Generelt må man være varsom med å bruke datasystemer som er laget utenfor Norge og EU, og konfidensielle data skal ikke gis til flernasjonale selskaper som Google, som har språkteknologiske løsninger bygget inn i egne systemer.

Språk som mat

Skal språkteknologiske produkter fungere tilfredsstillende på norsk, trenger de store mengder gode norske språkdata. Datautviklere mater programmene med ordlister, tekster og taleopptak, som blir sendt inn i et fordøyelsessystem som består av programkoder og algoritmer. Så bearbeides det språklige materialet på ulike måter, alt etter hva det skal brukes til.

– I den ene enden av skalaen finner vi samtaleroboter (chatbots), som vi møter blant annet på bankenes nettsider. De kan ikke formulere seg, de må mates med forhåndsprogrammerte svar på hyppige og enkle spørsmål fra oss kunder, sier Per Kristian Bjørkeng, teknologijournalist i Aftenposten og aktuell med boka Kunstig intelligens – den usynlige revolusjonen.

– I den andre enden av skalaen har vi den nye generasjonen maskinoversettelse, som bygger på kunstig intelligens og maskinlæring. Disse programmene mates med parallelle tekster på ulike språk. Ved å sammenligne med tidligere oversettelser lærer de seg å oversette setninger på et nivå som nærmer seg gode menneskelige oversettere. Jo større databaser med oversettelser, og jo kraftigere datamaskiner som kan bearbeide dem, jo høyere blir kvaliteten. Derfor er det oversettelser mellom de største språkene som får den beste kvaliteten.

Til tross for en rivende språkteknologisk utvikling de siste årene er det fortsatt mye som gjenstår. Flere av programmene skiller for eksempel ikke mellom de to norske målformene. Noen av dem forstår rett og slett ikke nynorske ord. Utviklerne trenger derfor språkdata fra både bokmål og nynorsk for å skape gode nok produkter som treffer alle.

Tale er også gull

Utviklerne er ikke bare på jakt etter tekster, de vil også ha stemmer. De såkalte smarthøyttalerne som nylig er lansert på norsk, trenger å bli kjent med uttalen vår for å forstå oss. Det er ingen enkel sak, for dialektmangfoldet her til lands byr på særlige utfordringer.   

– Den talebaserte språkteknologien takler fortsatt ikke norske dialekter like godt som bokmålsnær tale. Vi risikerer derfor at mange av oss kommer til å snakke med en mer avslepen dialekt for å gjøre oss forstått, sier Bjørkeng.

Det er problematisk, for formålet med språkteknologien er å gjøre hverdagen vår enklere. Vi skal kunne slå på lyset hjemme eller høre veimeldinger i bilen uten å slippe det vi har i hendene. Vi skal kunne få oversatt nyheter fra italiensk og arabisk til norsk og få hjelp fra banken eller kommunen uten å måtte sitte i telefonkø. Da burde det ikke spille noen rolle om vi skriver nynorsk eller bokmål, eller om vi snakker vår naturlige dialekt.

Språk i banken

Mangelen på språkdata begrenser de mulighetene som ligger i språkteknologien. Språkrådet og Nasjonalbiblioteket samarbeider derfor om å bygge opp Språkbanken, en elektronisk samling av språkdata som fritt kan gjenbrukes for å utvikle språkteknologiske tjenester og produkter. I Språkbanken kan utviklere – enten de er små oppstartsbedrifter eller større flernasjonale selskaper – hente blant annet taledata, flerspråklige termlister og tekstsamlinger.

–  Vi ønsker særlig at offentlige organisasjoner skal gi fra seg språkdata til Språkbanken for at hele samfunnet skal kunne høste gevinstene i framtida, sier Åse Wetås, direktør i Språkrådet. – Gjennom Språkbanken ønsker vi å legge til rette for at norsk skal bli et naturlig språkvalg i alle språkteknologiske løsninger.

Per Kristian Bjørkeng sier at vi bare har sett begynnelsen på de mulighetene språkteknologien kan tilby.

– Tenk bare på hvordan framtidige oversettelsesprogrammer kan gi oss tilgang til kunnskap på en helt ny måte. Vi vil kunne lese tekster på andre språk enn engelsk, og norske tekster vil med noen få tastetrykk være tilgjengelige for et internasjonalt publikum.

 

-- Kristine Eide og Ole Våge er seniorrådgivere i Språkrådet.

Om språkteknologi

Språkteknologi er datamaskinell bearbeiding av naturlig språk. Den omfatter alt fra automatiske programmer som stavekontroll og oversettelse til søking på internett, samtaleroboter, talegjenkjenning og talesyntese. De siste årene er kunstig intelligens og nevrale nettverk blitt bygget inn i språkteknologien. Datamaskinene blir stadig «smartere», både til å forstå hva vi sier og skriver, og til å reprodusere naturlig språk, altså språket slik mennesker snakker det (i motsetning til kunstige språk og programmeringskoder).

Vi møter språkteknologien stadig oftere i hverdagen, for eksempel på Facebook, der kommentarer på andre språk automatisk blir oversatt til norsk, i stavekontrollen og i små bokser hjemme på kjøkkenbenken, som Amazons Alexa og Google Home.

Ordliste
  • samtalerobot eller praterobot (eng. chatbot): programvare som skal forstå naturlig språk, og som gir svar tilbake
  • smarthøyttaler: boks som ved hjelp av talegjenkjenning kan oppfatte og utføre muntlige kommandoer fra mennesker, og som kan svare
  • talegjenkjenning: teknologi som kan oppfatte og tolke menneskelig tale
  • talesyntese:det å produsere talt språk, gjerne med utgangspunkt i tekst
  • kunstig intelligens: etterlikning av menneskelig intelligens i et datasystem
  • nevrale nettverk: datasystem brukt i maskinlæring som skal etterligne menneskers måte å lære noe på

Del denne siden

Del på Facebook Del på Twitter