Nordisk forskningssamarbeid innen språkteknologi

AV TORBJØRN SVENDSEN

Språkteknologi er språkkyndig teknologi, dvs. en teknologi som blant annet skal kunne analysere, forstå, utvikle, gjenkjenne og oversette talt og skrevet tekst. Dette innebærer at språkteknologien er språkavhengig, dvs. at de teknologiske forutsetningene og løsningene vil være avhengig av det språket teknologien skal anvendes for. Det er åpenbart at løsninger for den kinesiske mandarindialekten vil ha begrensede forutsetninger for å fungere for norske brukere. Det er kanskje mindre åpenbart at teknologi utviklet for svensk språk vil kunne kreve et stort arbeid og store ressurser for å kunne tilpasses norsk språk. For å dra det enda nærmere norske forhold: Å utvikle en talegjenkjenner for nynorsk med utgangspunkt i en bokmålsversjon av talegjenkjenneren er ingen triviell oppgave.

Med dette bakteppet kan man kanskje spørre seg om det overhodet er noe grunnlag for et nordisk forskningssamarbeid innen språkteknologi. Svaret er et klart «ja». Det eksisterer i dag en del samarbeid mellom forskningsmiljøene i de nordiske land, og det er et klart behov for å utbygge dette samarbeidet ytterligere.

Hvorfor?

I tillegg til likskapene hovedspråkene i de skandinaviske land oppviser, har landene det fellestrekk at de er små land målt i antall innbyggere. Dette betyr også at markedet i hvert land er lite. Det gjelder spesielt for Norge, som i tillegg til å være landet med færrest innbyggere også har delingen i bokmål og nynorsk. Dersom det var mulig å betrakte Skandinavia som et felles marked, vil befolkningen være på rundt 20 millioner mennesker. Fortsatt er dette smått sammenlignet med markedet for engelsk, spansk og kinesisk, men det er likevel betydelig. De nordiske land er blant de land i verden som har høyest bruk og utbredelse av IKT-produkter, noe som gjør Norden mer interessant for store markedsaktører enn størrelsen ellers ville tilsi.

Den kanskje viktigste motivasjonen for et forskningssamarbeid innen språkteknologi er imidlertid ikke knyttet til markedsstørrelsen, selv om den har en klar kopling mot størrelsen på våre respektive land. Språkteknologi er et fagområde som krever en bred faglig ekspertise. Forskning og utvikling som gjelder avansert taleteknologi, krever spisskompetanse innen så vel teknologi og naturvitenskap (signalbehandling, akustikk, informasjonsvitenskap og datateknikk, statistikk) som språkvitenskap (fonetikk, lingvistikk) og samfunnsvitenskap (psykologi, sosiologi, brukergrensesnitt). Det er vanskelig for ett nasjonalt forskningsmiljø å opparbeide og vedlikeholde spisskompetanse på alle disse områdene. Situasjonen er heller den at vi har mange små miljøer der ressurs- og personalsituasjonen gjør at vi tenderer mot den engelske betegnelsen om å være «Jack of all trades, master of none». Drillos fotballkonsept, som gikk ut på å komponere et lag som var sammensatt av spillere med ekstrem spisskompetanse på ulike områder, viste seg å være effektivt. En liknende tankegang har potensial for å gi god effekt også innen språkteknologisk forskning. Dersom vi får konsentrere oss om det vi er gode til, i tillit til at andres spisskompetanse fyller ut våre egne mangler og svakheter, vil vi kunne gjøre laget bedre. Jo bredere tilfang, jo større er muligheten for å sette sammen et godt lag.

Noe av bakgrunnen for å kunne etablere et slikt samarbeid ligger i at mye av det vitenskapelige grunnlaget for språkteknologien er generisk, dvs. at metodeapparatet i stor grad er språkuavhengig. Et vesentlig spørsmål videre er hvorvidt det er mulig å utnytte de språklige likheter som det tross alt er mellom de skandinaviske språk, til et mer utstrakt samarbeid. For eksempel: Dersom man har utviklet et system for automatisk diktering for svensk, vil det være mulig å bygge videre på det arbeidet for å lage et norsk dikteringssystem? Eller vil det være mer effektivt og gi et bedre resultat dersom et norsk dikteringssystem utvikles fra grunnen av? Når Microsoft skal lage lokale versjoner av Windows eller Office, starter de alltid fra en engelsk basisversjon. Hovedårsaken er naturligvis frykt for at unøyaktigheter i oversettelsen og tilpasningen vil forplantes og forsterkes dersom man tar utgangspunkt i oversettelse til et nærliggende språk. Den samme filosofien finner man f.eks. i bibeloversettelser og de fleste skjønnlitterære oversettelser, hvor man tar utgangspunkt i kildeteksten.

For å lage gode språkteknologiske produkter må en tilpasse teknologien til det aktuelle språket. Dette betyr naturligvis at språkkunnskap er en svært viktig faktor i utviklingen. Det er en del felles problemstillinger for de skandinaviske språkene der en felles innsats vil kunne vise seg å være nyttig. For eksempel har alle språkene et stort antall sammensatte ord, et fenomen som viser seg å skape til dels store problemer for språkteknologien. Språkene har også mange felles ord, og realiseringen av en del av språklydene har ikke større variasjon mellom språkene enn den variasjonen vi finner mellom dialektene våre. Setningsstrukturen har også store likhetstrekk.

Gode språkteknologiske produkter og tjenester krever kunnskap om brukeren og at utformingen av brukergrensesnittet tar hensyn til brukerens behov, krav og bakgrunn. Kultur og samfunn i de nordiske land har mange likheter, selv om det er viktig å være klar over de (tidvis store) forskjellene som også eksisterer.

I tillegg til kunnskapsmessig dybde og bredde krever moderne språkteknologi store mengder språkdata. Innsamling av de mengder av tale og tekst som det er behov for, er dyrt og ressurskrevende. Det er åpenbare synergieffekter ved å enes om felles struktur på databasene og ved å utveksle erfaringer om datainnsamling, organisering og distribusjon. Til en viss grad kan det også være mulig å dele språkdata. For eksempel har flere forskningsrapporter vist at skjønnsom bruk av taledata fra nærliggende språk kan være et nyttig supplement dersom det ikke eksisterer tilstrekkelige datamengder for eget språk. Med tilstrekkelig kunnskap om teknologi og språk vil det i tillegg kunne være mulig å utnytte det språklige fellesskap mellom de skandinaviske språkene. Dette gir et potensial for billigere og mer effektiv utvikling av språkteknologiske produkter, basert på en versjon for et annet skandinavisk språk.

Samarbeid

Innen språkteknologien har det inntil nylig vært lite samarbeid mellom de forskningsmiljøene som har arbeidet med tekstbasert språkteknologi, og de som har fokusert på taleteknologi. Undertegnedes forskningsfelt har vært taleteknologi, og i omtalen av eksisterende nordisk samarbeid kommer jeg til å legge hovedvekten på dette området. Jeg ber på forhånd om unnskyldning dersom samarbeidet innen den tekstbaserte språkteknologien blir mangelfullt omtalt.

Innen taleteknologi var situasjonen i mange år at forskere fra de nordiske land hovedsakelig møttes på internasjonale konferanser. Bi- og multilateralt samarbeid mellom de nordiske land var så godt som ikke-eksisterende. Forskningssamarbeidet var i hovedsak gjennom EU-prosjekter, der spesielt de skandinaviske land har vært flittige deltakere. I EU-prosjektene har det vært mange andre deltakere enn de nordiske land, og det har ikke vært lagt spesiell vekt på våre felles språklige trekk. For om lag ti år siden ble det tatt et initiativ overfor Nordisk industrifond om et felles nordisk prosjekt for innsamling av språkdata. Dette initiativet kunne ha lagt grunnlaget for sterkere forskningskompetanse og medvirket til at de nordiske land i dag kunne hatt flere språkteknologiske produkter og tjenester i praktisk bruk. Dessverre fikk initiativet aldri mer enn hyggelig omtale fra fondet.

I de senere år er det imidlertid blitt et tettere samarbeid i Norden. Det avholdes årlige møter mellom taleteknologimiljøene ved de sentrale universitetene i Norden. Datalingvistene har også sine Nordiske Datalingvistikkdager. Taleteknologimiljøene har gått sammen om å arrangere den største vitenskapelige konferansen for taleteknologi, Eurospeech, som avholdes i Ålborg i september i år (se http://eurospeech2001.org). Slike fellesløft bidrar til å sette Norden på det internasjonale forskningskartet og er samtidig med på å knytte miljøene tettere sammen.

I fjor besluttet Nordisk ministerråd å opprette et femårig nordisk forskningsprogram innen språkteknologi. Forskningsprogrammet adminstreres av Nordisk Forskerutdanningsakademi, NorFA. Begrunnelsen for programmet er først og fremst å sikre og styrke bruken av de nordiske språk gjennom utvikling og bruk av språkteknologi for de respektive språk. For eksempel er det en målsetning at vanlige hjelpeverktøy i dataalderen skal kunne være tilgjengelige også på de ulike nasjonalspråk, ikke bare på engelsk. Tanken er at «...et organisatorisk tiltag som etablering af et nordisk sprogteknologisk forskningsprogram vil kunne bidrage til forbedret kommunikation, fremme udviklingen inden for sprogteknologien hen imod et egentligt nordisk sprogteknologisk samfund og derigennem medvirke til støtte og udvikling af sprog, erhverv og kulturværdier i Norden» (se: http://www.norfa.no ).

Den årlige økonomiske rammen for programmet er på om lag 5 millioner kroner. Programmet krever at prosjekter skal ha deltakelse fra minst tre nordiske land. I tillegg til de nordiske land kan Baltikum og Nordvest-Russland delta. Hvert prosjekt blir derfor av begrenset størrelse, og hoveddelen av midlene benyttes til nettverksbygging innen ulike områder av språkteknologien. For inneværende år vil det også bli avsatt midler til dybdeforskning, gjennom stipendier for doktorgradsstudier. Mer informasjon om programmet kan finnes på NorFAs hjemmesider, http://www.norfa.no.

NorFA gir også generelt støtte til forskerutdanning, som for eksempel intensivkurs for doktorgradsstudenter, mobilitetsstipend osv. Støtten er normalt begrenset til dekning av reise og opphold. Dette er en kilde til stimulering av samarbeid som i for liten grad er utnyttet.

Behov for økt forskningssamarbeid?

Norge er en sinke i forskningssammenheng. Vi bruker betydelig mindre til forskning målt i andel av BNP enn gjennomsnittet av OECD-landene, og godt under halvparten av f.eks. Sverige. De krav forskning innen språkteknologi setter til faglig bredde og tyngde, krever større forskergrupper enn det som vi kan vente å realisere i Norge. Dette gjelder også i noe mindre grad for de andre nordiske land. Selv om det allerede eksisterer et nordisk forskningssamarbeid innen språkteknologi, er en ennå ikke i nærheten av å utnytte de muligheter en bedre koordinering og informasjonsutveksling kan gi forskningen. I «Handlingsplan for norsk språk og IKT», som Språkrådet utarbeidet for Kulturdepartementet, foreslås det at Norge tar initiativ til å opprette et nordisk senter for språkteknologi. Et slikt senter kan være det tyngdepunktet som er nødvendig for å utnytte den kompetanse og kreativitet som de mange dyktige forskerne i de nordiske land besitter. Skal vi lykkes i å utvikle en språkteknologi som skal støtte opp om norsk som bruksspråk, må vi i tillegg til å få en sterk nasjonal satsing også legge til rette for en felles nordisk ressursutnyttelse, både av kunnskap og av språkdata.

 

-- Torbjørn Svendsen er professor ved Institutt for teleteknikk ved NTNU.

Del denne siden

Del på Facebook Del på Twitter