Språkteknologi i Norge

AV TORBJØRN NORDGÅRD

I de siste årene har språkteknologisk forskning og utvikling vært inne i en sterk vekstfase, særlig i nasjoner som USA, Tyskland, Storbritannia og Japan. Over tid har det blitt slik at engelsk har pekt seg ut som det språket som ligger best til rette for språkteknologisk produktutvikling, som automatiske dikteringssystemer, taleproduksjon, korrekturprogrammer, maskinoversettelse, informasjonssøking osv. Det kommer av at det for engelsk finnes store mengder tekstkorpora, talekorpora, grammatikker og ordlister, mens andre språk ikke har tilsvarende språklige ressurser tilgjengelige for forskning og utviklingsarbeid. Dette fører i sin tur til at språkteknologiske anvendelser for engelsk stadig blir utviklet og forbedret, mens mindre språk, som norsk, må klare seg uten slike produkter. Selv om situasjonen i Norge kan virke dyster på denne bakgrunnen, foregår det en viss aktivitet, som vi skal se i denne kortfattede oversikten.

Universitetene

Man kan si at norsk datalingvistikk startet opp i sekstiårene da forskere ved Universitetet i Bergen begynte å arbeide med språk og datamaskiner. Aktiviteten var imidlertid begrenset til noen få ildsjeler, men rundt 1970 ble NAVFs edb-senter for humanistisk forskning etablert der. Ved dette senteret har man siden syttiårene arbeidet med bl.a. korpusorientert lingvistikk, dvs. studier av elektroniske tekster. Denne aktiviteten ved senteret er i dag internasjonalt vel anerkjent, og materiale fra denne tiden brukes fremdeles av språkforskere, dels til empiriske studier av språk og dels som hjelp i utvikling av språkteknologiske anvendelser. Dette illustrerer at språkressurser i form av maskinleselige tekster har langvarig gjenbruksverdi.

Universitetene i Oslo, Bergen og Trondheim fikk faste stillinger i datalingvistikk i åtti- og nittiårene, noe som har ført til at disse universitetene nå tilbyr undervisning i datalingvistikk. Universitetet i Trondheim har siden midten av åttiårene hatt stillinger som helt eller delvis har vært knyttet til taleteknologi. De språkteknologiske fagmiljøene er imidlertid små. Det er totalt åtte stillinger som har datalingvistikk eller språkteknologi nevnt i stillingsinstruksen: tre stillinger i Oslo, to i Bergen og tre i Trondheim. Sammenlignet med andre land er dette beskjedne fagmiljøer målt ut fra størrelsen. Både Sverige og Danmark har atskillig større datalingvistiske forsknings- og undervisningssentre.

Den datalingvistiske forskningsaktiviteten ved Universitetet i Oslo kan sies å være profilert langs to akser. På den ene siden finner vi forskning omkring formelle egenskaper ved naturlige språk, dvs. studier av formelle språk og grammatikker, formell syntaks og semantikk. I forlengelsen av denne forskningsaktiviteten arbeider man med bl.a. automatisk oversettelse. Den andre hovedaktiviteten er datalingvistiske studier av løpende tekst, herunder utvikling av automatisk ordklasseidentifikasjon (part-of-speech tagging) for norsk (bokmål og nynorsk). Det er etablert et tekstlaboratorium der studenter og ansatte kan arbeide med maskinleselige tekster for ulike språk. Universitetet i Oslo har også i flere år gjennom Dokumentasjonsprosjektet arbeidet med å gjøre sitt leksikografiske materiale tilgjengelig i maskinleselig form.

Ved Universitetet i Bergen foregår det datalingvistisk forskning ved Senter for humanistisk informasjonsteknologi (HIT-senteret) og Institutt for lingvistikk og litteraturvitenskap. Grunnforskningsaktivitetene er relatert til studier av tekstkorpora, også tospråklige tekstkorpora, der man bl.a. søker å identifisere semantiske relasjoner mellom ulike språk. Et eksperimentelt maskinoversettelsessystem er utviklet i prosjektet Partiell oversettelse mellom nærstående språk (PONS). På den anvendte siden finner vi terminologiarbeid (maskinleselige terminologiske ordlister), tilrettelegging av tekstkorpora og utvikling av avanserte korrekturlesingsprogrammer. Terminologiaktiviteten har over flere år foregått ved Norsk Termbank (nå del av HIT-senteret). Korpusarbeidet er beskrevet ovenfor og skjer nå i regi av HIT-senteret. I det EU-finansierte prosjektet SCARRIE blir et korrekturlesingsprogram for norsk, dansk og svensk implementert, med basis i et lignende system for nederlandsk. Systemet har bl.a. kunnskap om læreboknormalen, «radikale» og «moderate» bokmålsvarianter, og brukeren av systemet kan for eksempel be om at moderate og radikale former ikke kombineres. Også Norges handelshøyskole i Bergen har en viss forskningsaktivitet omkring maskinoversettelse.

Det er bare ved Norges teknisk-naturvitenskapelige universitet i Trondheim (NTNU) at taleteknologi (automatisk talegjenkjenning og produksjon av kunstig tale) eksisterer som forsknings- og undervisningsfag. Undervisningen skjer i tilknytning til sivilingeniør- og dr.ing.-studiene i teleteknikk, og forskningen forgår i samarbeid med SINTEF og universitetets fonetikkmiljø. I de siste årene har forskning relatert til telefoniske anvendelser blitt prioritert gjennom prosjektene Talebaserte grensesnitt og resonnerende systemer (TABOR) og Spoken Dialogue Systems via Telephone Lines (SPODIS). TABOR-prosjektet er finansiert av NTNU og har knyttet fagmiljøene teleteknikk, informatikk, fonetikk og lingvistikk sammen rundt utvikling av et pilotprosjekt for automatisk ruteopplysning, der blant annet taleteknologi og kunstig intelligens er sentrale komponenter. Dette prosjektet er utgangspunktet for SPODIS-prosjektet, som har til formål å utvikle en nasjonal kompetanse i feltene taleteknologi og dialogsystemer for norsk språk, og som er finansiert av Norges forskningsråd. For tiden er seks doktorgradsstipendiater direkte eller indirekte knyttet til dette prosjektet.

Med støtte fra Forskningsrådet og Telenor har man ved NTNU i regi av prosjektet Norsk komputasjonelt leksikon (NorKompLeks) prioritert utvikling av datalingvistiske ordlister med detaljerte beskrivelser av bøyninger og lydlig realisasjon. I tillegg er syntaktiske og semantiske egenskaper ved verb beskrevet i atskillig detalj. Prosjektet har tatt utgangspunkt i ordforrådet i Bokmålsordboka og Nynorskordboka, som Universitetet i Oslo forvalter. NorKompLeks-prosjektet blir avsluttet i begynnelsen av 1999, og maskinleselige ordlister vil dermed være tilgjengelige for forskning og utviklingsarbeid.

Instituttsektoren

SINTEF i Trondheim har arbeidet med komprimering av talesignaler siden midten av syttiårene, og fra midten av åttiårene har talegjenkjenning og talesyntese vært definerte forskningsområder. Oppdragsgiver har for det meste vært Televerket/Telenor. SINTEF er i dag med i SPODIS-prosjektet (jf. ovenfor), men har også over tid arbeidet med utvikling av automatisk teksting av direktesendte tv-programmer, på oppdrag fra NRK. SINTEF har i dag flere erfarne forskere innen taleteknologi.

Telenor startet sin taleteknologiske forskningsvirksomhet i 1980, og har i mange år samarbeidet med SINTEF og NTNU om taleteknologiske prosjekter relatert til telefoniske anvendelser. For tiden har Telenor Forskning også et større prosjekt for utvikling av automatiske teletjenester med norsk tale som brukergrensesnitt. Telenor finansierer det meste av fonologibeskrivelsene i prosjektet NorKompLeks (se ovenfor).

Undervisning

Ved Universitetet i Oslo tilbys faget språk, logikk og informasjon. Her kan studentene spesialisere seg i datalingvistikk, fra grunnfag til og med hovedfag. Landets mest omfattende fagtilbud i «tradisjonell» datalingvistikk (uten fordypning i taleteknologi) finner vi ved Universitetet i Bergen, der faget tilbys fra grunnfag til og med hovedfag. Faget overlapper delvis med allmenn lingvistikk. Ved NTNU tilbys enkelte datalingvistikkemner i lingvistikkfaget. I tillegg er taleteknologi en spesialisering i sivilingeniørstudiet i teleteknikk, og enkelte dr.ing.-stipendiater har tatt og tar spesialisering i taleteknologi (talegjenkjenning og talesyntese).

Et gjennomgående problem for alle datalingvistikkstudiene er svak studentrekruttering, selv om situasjonen synes å ha bedret seg noe i det siste året. Studenter som sogner til de humanistiske fakultetene, betrakter oftest datalingvistikk som et «hardt» og utypisk humanistisk fag. Samtidig er denne studentgruppen oftest ikke særlig interessert i matematisk modellering og formelle metoder, og dette forklarer nok mye av den manglende studentinteressen. På den annen side fortoner datalingvistikk seg som «mykt» og «sært» for teknologi- og realfagsstudenter. Dermed faller faget mellom to stoler, og rekrutteringpotensialet blir svakt. Det er uheldig ikke bare for instituttene som driver disse fagene, men også for næringsliv og forvaltning, der vi kan observere at etterspørselen etter kandidater med datalingvistisk kompetanse er økende. Det er en trend som er enda tydeligere internasjonalt.

Selv om studentrekrutteringen ikke er tilfredsstillende, kan man observere at viderekomne studenter lettere fatter interesse for faget fordi det har en flerfaglig innretning som studenter på høyere nivå finner spennende. Faget kombinerer informatikkemner som programmering, formelle grammatikker og automatteori og språkvitenskapelige disipliner som grammatikk, semantikk, morfologi osv. Studentene finner det spennende å arbeide med prosjektarbeid der for eksempel maskinoversettelse inngår. Da får de bruk for alt de har lært, og de utvikler et «produkt» med egenskaper som enkelt lar seg vurdere.

Oppsummering

Når man gjør opp status rundt årsskiftet 1998/1999, kan man konstatere at det tilbys undervisning i språkteknologiske emner ved de største universitetene. Maskinleselige ordlister er i ferd med å bli gjort tilgjengelige, og det eksisterer også et ferdig utviklet program for automatisk ordklasseidentifikasjon. Det mangler likevel ulike typer korpora - både tekstsamlinger og taledatabaser. Uten slike korpora kan man ikke få fart på taleteknologisk forskning omkring norsk språk, og engelsk vil dermed bli dominerende i den taleteknologien som nordmenn er i ferd med å møte, og som vil bli mer vanlig i årene som kommer. Man kan heller ikke utvikle tekstbaserte produkter for norsk språk der fagmiljøene kan foreta kvalitetssikring. Det må imidlertid bemerkes at både Språkrådet, Forskningsrådet og regjeringen har påpekt at språkteknologien må styrkes i de nærmeste årene, og man kan vel tillate seg å være nøkternt optimistisk med hensyn til mulighetene til å få finansiert et nasjonalt korpus til bruk i både i tradisjonelle språkvitenskapelige disipliner så vel som i språkteknologisk forskning og utviklingsarbeid.

-- Torbjørn Nordgård er professor ved Lingvistisk institutt ved Noregs teknisk-naturvitskapelege universitet i Trondheim. Han er prosjektleiar for NorKompLeks (Norsk komputasjonelt leksikon). Han har arbeidd med automatisk setningsanalyse, formell syntaks, semantikk og datamaskinell leksikografi.

Del denne siden