Hva er språkteknologi? Utfordinger for norsk – bokmål og nynorsk

AV JOSTEIN HELLAND HAUGE

Bruken av ulike teknikker for å nedskrive og formidle språklige ytringer har lange tradisjoner. Gjennom tidene er det i forskjellige deler av verden blitt utviklet mange slags skriveredskaper og informasjonsbærere. De eldste eksempler på nedtegning av skriftsymboler er flere tusen år gamle. Kineserne utviklet trykketeknikker om lag 200 år f.Kr., en teknologi som ble gjenoppdaget i Europa i det 15. hundreåret. Etter denne tid kom en rad nye teknikker for behandling og distribusjon av skrift og – senere – tale. Velkjente eksempler er skrivemaskin, telegrafi og telefoni og ulike kopieringsteknikker.

Språkteknologi

Det er mot denne bakgrunn vi bør vurdere dagenes utvikling av språkteknologi. Når vi i dag taler om språkteknologi (human language technology, language engineering) mener vi det arbeidsområdet der man utvikler og tilbyr dataprodukter og IT-tjenester som bygger på språklig datatilfang og språklige fag- og forskningsmetoder. Målet er å øke datasystemenes funksjonalitet og yte-evne og tilby fleksible presentasjonsformer. Ved å gjøre systemene mer «kompetente», språklig sett, kan brukerne av datamaskiner og IT-tjenester også kommunisere med maskinene – og via dem med hverandre – på en mer menneskelik måte.

Vi ser i dag en rivende utvikling av produkter med innebygd språkteknikk. Det nye er at slike produkter ikke lenger bare eksisterer som prototyper på laboratoriene, men at de produseres og markedsføres i et stort antall – og ofte svært rimelig – i den delen av næringslivet som kalles språkindustri.

Alt i dag er språkteknologiske produkter i bruk av alle som benytter datamaskiner i form av tekstbehandlingsprogrammer med innebygde funksjoner for bl.a. stavingskontroll og ordretting. I årene som kommer, vil slike hjelpemidler fremstå som primitive i forhold til de standardprogrammer som vil følge med vanlig datautrustning. De vil omfatte systemer for talestyring av maskiner og programvare, for sammenhengende diktering av tekst til innskriving i datamaskinen, systemer for oversettelse av tekst til tale, for oversettelse til ett eller flere andre språk, for å lage automatiske sammendrag av tekster, for å filtrere, prioritere og lese opp innkommende e-post osv.

Informasjonssamfunnet fremstår alt i dag som et globalt «integrasjonssamfunn» der vi via elektroniske nettverk kommuniserer med hverandre gjennom tekst og tale, søker informasjon og samhandler i næringsvirksomhet, innen undervisning og forskning og i fritiden.

Vi er altså borgere i en grenseløs verden når det gjelder muligheter for kommunikasjon, og dette er en verden knyttet sammen av digitale nett med et stort antall språk som kommunikasjonsmiddel. Men også i de nye digitale produkter og medier har engelsk til nå vært det dominerende språket. Majoriteten av de produkter som viser gjennombrudd på viktige områder av digital språkbehandling, har engelsk som basisspråk. I kommunikasjonen på Internett er engelsk det dominerende språket, og det brukes trolig i over 90 % av all kommunikasjon.

Språkteknologien og de små nasjonalspråkene

Den utviklingen som er risset opp ovenfor, stiller de små nasjonalspråkene overfor en rad nye utfordringer og muligheter. La oss se på de positive virkningene først: Ved bruk av systemer som tilbyr fleksible former for interaksjon med og styring av maskinene, vil det bli lettere for alle å bruke IT-utstyr, og ikke minst vil livsstandarden til grupper med funksjonshemninger kunne bedres betydelig. Systemer for automatisk oversettelse vil gi flere anledning til å kommunisere skriftlig og muntlig med språkbrukere i andre deler av verden. Ved bruk av Internett kan små språknasjoner bli like godt synlige på den internasjonale arena som de store land – vel å merke dersom vi har fått utviklet språktekniske systemer og hjelpemidler som tillater bruk av vårt eget språk i kommunikasjon med andre språkkulturer. I motsatt fall må vi bruke engelsk.

Internasjonalt er det i dag en økende bevissthet om betydningen av det språklige mangfoldet i europeisk kultur- og samfunnsliv. Heller enn å se på den store mengden av nasjonale særspråk og større regionale språkvarianter (ca. 40) som en hemsko, må vi se språklig mangfold som en viktig forutsetning for kreativitet og for å skape personlig identitet. Mangfoldet i europeiske kulturytringer har en klar sammenheng med de mange nasjonalspråk.

Det er vel ofte slik at nye produkter på forbrukermarkedet fremstår som mye enklere enn de gamle utgavene fordi de er lettere å betjene, er mer kompakte osv. Sannheten er snarere at de som oftest må være mye mer komplekse og teknisk avanserte enn eldre utgaver for å kunne fremstå for brukeren som enklere å betjene. Slik er det også i forbindelse med dataprogrammer og digitale tjenester.

I dag finnes på markedet en rekke kraftige programmer som både gir brukerne tilgang til ulike former for avansert språkbehandling, og som samtidig er enkle å bruke. Bak utviklingen av slike programmer ligger det ofte flere hundre millioner kroner i utviklingsarbeid og en faglig innsats av et stort team med bred teknologisk og språklig fagbakgrunn. Arbeidet bygger på internasjonal kunnskap fra feltet datalingvistikk (teori og metode), forskings- og utviklingsarbeid innen datamaskinell tale- og tekstbehandling – og ikke minst – på store samlinger av språkmateriale i tekstlig og talt form, tilrettelagt for bruk i programsystemer og digitale tjenester.

Språkforskere som studerer grammatisk struktur og bøyningsverk ved hjelp av datamaskinelle metoder, har tradisjonelt nøyd seg med å bygge opp tekstsamlinger på et par millioner ord. For kommersiell produktutvikling er det i dag tale om å ha tilgjengelig språkressurser i en helt annen skala. Det er her nødvendig med tekstsamlinger på minst en halv milliard ord og svære samlinger av vokabular knyttet til særspråk og terminologi.

Slik ser vi at produktutviklingen innen språkteknologi nødvendigvis må bli svært kostbar. Det bør også påpekes at det er like kostbart å utvikle språkteknologi for et lite språk som for et stort. I første rekke blir språkteknologisk utviklingsarbeid i dag rettet mot språk med stor utbredelse, særlig engelsk. Det er i første rekke på det engelskspråklige markedet de store investeringene kan gjenvinnes gjennom salg i store volum. Dette betyr at de små nasjonalspråk vanligvis ikke er økonomisk interessante målspråk for de tunge utviklermiljøene, fordi markedene er for små.

Konsekvensene kan bli store for små språknasjoner dersom nye nivåer i digital tjenesteyting gjennom programprodukter og digitale informasjonstjenester m.m. bare blir tilgjengelig på engelsk. Dersom vi ikke kan tilby språkbehandlingsprodukter for små nasjonalspråk på samme nivå som de engelskspråklige, står vi i fare for at mange miljøer – ikke minst innen næringslivet – mer og mer vil gå over til å nytte engelsk som arbeidsspråk også i innenlandsk kommunikasjon og korrespondanse. Mer effektive systemer gir høyere inntjening. Dersom de unge blir vant til engelskspråklige programvarer og kommunikasjonstjenester, vil de senere ta med seg sine språklige datavaner inn i sitt yrke og sin fritid.

Man kan så spørre seg om ikke botemidlet for å gjøre de mindre språkene konkurransedyktige er å oversette de nye språkteknologiske produktene fra eksempelvis engelsk. Dessverre, slik er det knapt nok mulig å gjøre i dag, og i årene som kommer, vil det være umulig. Grunnen er, som nevnt ovenfor, at det bak et system for taleanalyse eller talesyntese, for automatisk oversettelse m.v. ligger et stort tilfang av produkttilpassede grammatikker, ordbøker, uttaleordbøker, terminologiske lister m.m. i datamaskinell form. Skal de små språknasjonene kunne gjøre seg nytte av andres språkteknologiske produktutvikling, må de derfor i det minste ha utviklet de relevante nasjonalspråklige komponentene som må implanteres i de produkter man ønsker «å lokalisere», som det heter på fagspråket.

Er det da nødvendigvis slik at små land ikke kan skape en levedyktig språkindustri? Et eksempel kan vise at det går an:

Det flamsk-belgiske selskapet Lernout and Hauspie er i dag en av verdens fremste tilbydere av avanserte språkteknologiske produkter. Selskapet, som har flere tusen ansatte, har datterselskaper i alle deler av verden. De er ofte opprettet i et nært samarbeid med offentlige myndigheter og nasjonale industrier. Som et ledd i den strategiske utviklingen av selskapet er det etablert «en flamsk språkdal» (The Flemish Language Valley) med betydelig offentlig støtte fra flamske myndigheter. En rekke virksomheter knyttet til ulike områder av språkteknologisk utviklingsarbeid er opprettet i denne «språkdalen». (Interesserte kan få vite mer om tiltaket ved å besøke internettadressen: http://www.flv.be).

For mange vil det kanskje være et tankekors at den voksende oppmerksomheten om vilkårene for de små nasjonalspråk i en digital fremtid ikke minst er et resultat av offensive handlingsprogrammer innenfor flere av EUs store utviklingsprogrammer. Her har Norge deltatt både gjennom et nasjonalt kartleggingsarbeid (EUROMAP) og ved å etablere et sekretariat som en del av det europeiske prosjektet Multilingual Information Society (MLIS).

Spesielt om den norske språksituasjonen

Det kan heldigvis også i vårt eget land nå registreres en øket interesse for spørsmål knyttet til bruken av norsk språk i digitale medier, samtidig som det fra forskningssiden er en utvikling i gang for å delta mer aktivt i samarbeid med miljøer som er markedsrettede. For tiden planlegges det på Vestlandet et selskap innen språkteknologi av betydelig omfang og med en ambisiøs målsetting.

Frem til i dag har det foregått lite markedsrettet språkteknologisk utviklingsarbeid i Norge. En viktig innsats har imidlertid foregått i Trondheim gjennom arbeidet med talesyntese og taleanalyse ved NTH. Også IBM og Telenor har i flere år drevet språkteknologisk utviklings- og tilpasningsarbeid for norsk. Likevel er fraværet av selskaper som arbeider med utvikling av norskspråklige programprodukter påtakelig, også sammenlignet med situasjonen i de andre nordiske land.

Behovet for å styrke arbeidet med bruk av norsk i programvarer og digitale informasjonstjenester er gitt en bred omtale i Kulturdepartementets Handlingsplan for IT på kulturområdet 1998–2001. Også i Næringsrettet IT-plan for perioden 1998-2001 fra Nærings- og handelsdepartementet understrekes behovet for å utvikle språkverktøy og metoder som setter oss i stand til å kommunisere på norsk og fremme eksporten av norske produkter.

For første gang er virkningene av informasjonsteknologi for norsk språkutvikling også gitt en bred omtale i en målbruksmelding til Stortinget (St.melding nr 13, 1997–1998). Her blir den spesielle norske språksituasjonen med to sidestilte målformer også drøftet. Som nevnt over, er utfordringene fremover store for alle små nasjonalspråk, men i Norge vil vi ha noen utfordringer i tillegg: I vår tilrettelegging av norske språkteknologiske produkter må hovedmålsettingen være å tilby produktene både for bokmåls- og nynorskbrukere. I tillegg kommer de behov for språktekniske hjelpemidler som samiske språkbrukere har krav på. Som vist ovenfor, vil dette bety utvikling av parallelle språkressurser i form av digitalt tilrettelagte grammatikker, leksika, uttaleregler m.v. for begge målformer (og for samisk), noe som uten tvil vil øke kostnadene i betydelig grad. Dette gjelder både når det er tale om egenutvikling av produkter og ved tilpasning til norsk og samisk av utenlandske produkter.

Også på andre måter vil den norske språksituasjonen fremstå som spesiell: Det tenkes her bl.a. på den store valgfrihet som finnes når det gjelder skrivemåten av ord og ved valg av grammatiske bøyningsformer. De språktekniske produktene er bygget opp av presise programinstruksjoner som regulerer alle valg som programmet foretar – også de språklige. Den som utvikler et digitalt språkhjelpemiddel for norsk, må derfor i minste detalj fastsette hvilke norske ord som skal velges ut ved f.eks en oversettelse fra norsk til engelsk, hvilken ortografisk variant som skal nyttes, hvilke sammensetningsdeler som skal brukes i flerleddede ord, hvilket bøyningsmønster som skal velges, hvilken dialektform et digitalt tekst-til-talesystem skal bruke osv.

Det finnes i dag bl.a. engelskspråklige programmer som tilbyr forfatteren støtte når det gjelder konsistent bruk av ord og hjelp til å fastholde et bestemt stilnivå. For bokmål og nynorsk vil slike støttefunksjoner trolig bli ennå vanskeligere å utforme enn for engelsk. Programmet skal i tillegg gi råd når det gjelder å velge og bruke konsekvent et omfattende sett av valgfrie ordformer og bøyningsmønstre – og de skal samsvare med hverandre, dvs. harmoniseres etter (språkpolitiske) normer som det er vanskelig, om ikke umulig, å gjøre eksplisitte.

Av slik grunner vil vi gjennom de systemer som utvikles, trolig få etablert flere de facto språkstandarder gjennom de vokabularer, grammatiske regler og normative språkbruksregler for valg av ord, bøyningsmønstre, setningslengde m.v. som programutviklerne legger til grunn. Siden slike språksystemer får svært stor utbredelse, vil innflytelsen fra dagens offisielle språknormer på praktisk språkbruk kunne avta raskt.

Det vi kan håpe på, er at utviklerne i sitt arbeid innser at de også trenger tilgang til solid norskfaglig kompetanse for å kunne lage produkter med høy språklig kvalitet. Dette gir rom for tidligere ukjente former for fagkoplinger mellom medarbeidere i IT-fag og språkmiljøer. For å øke motivasjonen i IT-industrien til å utvikle norskspråklige produkter vil det være viktig med et samarbeid med offentlige myndigheter og å få satt i verk faglig-økonomiske stimuleringsordninger.

Tiltak for å styrke bruken av norsk språk i digitale produkter og tjenester

I denne artikkelen har det vært et mål å få frem at tiden nå nærmest er overmoden for å utarbeide og sette i verk tiltak for å opprettholde og styrke bruken av bokmål, nynorsk og samisk i digitale produkter og tjenester. I utrednings- og plandokumenter har ikke minst Kulturdepartementet pekt på en del av de utfordringer som vi i dag står overfor som kulturnasjon.

For å sikre at satsingen på nasjonalt nivå skjer ut fra en felles målsetting og et helhetlig handlingsprogram, bør det snarest utarbeides en strategisk handlingsplan for språkteknologi. I dette arbeidet må industrien og representanter for ulike brukergrupper trekkes aktivt med.

Av mange grunner bør språkteknologisk produktutvikling først og fremst drives frem av kommersielle foretak. På den annen side bør foretakene stimuleres økonomisk gjennom de virkemidler som myndighetene kan ta i bruk på et så viktig nasjonalt innsatsområde. Gjennom vår nasjonale forskningspolitikk må vi også aktivt fremme et målrettet forsknings- og utviklingsarbeid på feltet slik at vi kan sikre en langsiktig kunnskapsutvikling og utdanning av fagfolk med innsikt i språkteknologisk arbeid.

Det offentlige har også en oppgave i å planlegge, koordinere og finansiere arbeid med å utvikle digitale språkressurser og å stille dem til disposisjon for bruk i privat og offentlig virksomhet. Som vist ovenfor er det i dag en kritisk mangel på tilgjengelige relevante språkdata for moderne talt og skrevet norsk. Det tilfanget som finnes, er dessuten ofte i praksis utilgjengelig for de aktuelle brukergrupper på grunn av de rettighetene som er knyttet til materialet.

Ideelt sett bør et innsatsprogram for norske språkressurser i digital form foregå som et fellestiltak mellom næringslivet og det offentlige. På dette feltet finnes det i dag satsinger i en rekke land og også store tiltaksprogrammer på EU-nivå. Det er derfor viktig at vi i Norge kan delta mest mulig aktivt i internasjonalt samarbeid på feltet. Her vil det bli drevet et kontinuerlig standardiseringsarbeid med tanke på å kunne utnytte språkressurser for talt og skrevet språk både i nasjonale og internasjonale IT-produkter og på tvers av språkgrenser.

Det er gledelig at vi snart får opprettet et eget språksekretariat under Norsk språkråd som kan koordinere og stimulere utviklingsarbeidet innen språkteknologi i vårt land og bygge bro over til de nordiske og internasjonale miljøer. Som vist i denne artikkelen, er det nok av oppgaver å gripe fatt i.

 

-- Jostein Helland Hauge er tidlegare universitetslektor i nordisk språkvitskap ved Universitetet i Bergen. Frå 1992 har han vori prosjektleiar ved Universitetet i Bergen med arbeidsoppgåver i bibliotekautomatisering, forskingsdokumentasjon og utvikling av nasjonale administrative system.

Del denne siden

Del på Facebook Del på Twitter