Treng vi ein norsk språkbank?

AV TORBJØRG BREIVIK

Handlingsplanen for norsk språk og IKT er omtalt i ein eigen artikkel i dette nummeret av Språknytt. Det største tiltaket i planen er å samla språklege ressursar som tekst, tale, ordbøker, termbasar og så vidare, tilordna dei og gjera dei tilgjengelege for forsking og industriell bruk. Samlinga er kalla ein norsk språkbank.

Norsk språk i språkteknologiske produkt og tenester

Språkteknologi er enkelt sagt all teknologi som byggjer på systematisert kunnskap om og bruk av naturleg språk. Når t.d. maskinar vert styrte ved hjelp av tale, inneheld dei eit lite språkteknologisk program som kjenner att lydsignala og "set dei om" til ein kommando, som maskinen så utfører. Vanlege språkteknologiske produkt er t.d. program for stave- og grammatikk-kontroll, program for omsetjing frå eit språk til eit anna, dikteringsprogram (tale til tekst), taleprotese (dataprogram med kunstig tale som les opp det brukaren vil seia), spel, andre underhaldningsprodukt osb. Dei språkteknologiske produkta fungerer ofte som eit tillegg til andre produkt.

Mange språkteknologiske produkt og tenester finst i dag berre på engelsk. I Noreg bør ein kunna by brukarane norskspråklege versjonar. Sett frå kultur- og språkpolitisk hald er dette eit rimeleg krav. Skal vi ta vare på og utvikla språk- og kulturarven vår, må vi syta for at norsk språk ikkje vert fråverande i den nye teknologien, som kjem til å verta eit normalt innslag i kvardagen i framtida. Bokmål og nynorsk må jamstellast, og i taleteknologien må ein ta omsyn til den talemålsvariasjonen vi har i landet.

Kravet om norskspråklege versjonar er rimeleg frå brukarane sin ståstad. Dersom dei ikkje får nytta morsmålet sitt i den aktuelle sammanhengen, kan det føra til nye sosiale skilje og framandgjering. Alle må kunna ta i bruk dei nye hjelpemidla utan omsyn til alder og utdanningsnivå. Funksjonshemma, eldre og andre med særlege krav til tilrettelegging og tilpassing må òg få tilgang til naudsynte og ønskte hjelpemiddel som språkteknologien kan gje dei. Ein taleprotese som snakkar engelsk eller fransk, er ikkje til særleg hjelp for norske brukarar.

Når reklamen fleipar med at kjøleskapet ikkje skjønar, er ikkje det eit tenkt tilfelle henta frå ein framtidsroman, men ein situasjon som kan vera ein realitet i nær framtid. Dei fleste har sett Netcoms tv-reklame der ein norsk gut har kome bort frå foreldra i ein storby i Marokko. Så snart den lokale politimannen har funne ut at guten er norsk, kan dei kommunisera med kvarandre takk vere taleteknologi og automatisk omsetjing i mobiltelefonane. Elektroniske bykart kan i dag installerast i bilar. Føraren fortel datamaskinen (= kartet) kvar han/ho vil køyra, ved å bruka stemma. Kartet viser med tydelege strekar kva for gater bilføraren kan velja for å koma raskast fram. Funksjonshemma kan få hjelpemiddel heime som gjer at dei kan opna/lukka/låsa dører og vindauge med stemma. NSB har fått ei talestyrt teneste for bestilling av billettar over telefon. Program som gjer at datamaskinar kan styrast med å uttala kommandoar i staden for å trykkja på ein tast, er på marknaden, men då med engelsk tale. Datamaskinar kan lærast opp til å skjøna norsk på same måten, men verksemder som ønskjer å utvikla fullgode norskspråklege versjonar, må ha tilgang til store mengder tekst og tale på norsk for å få det til.

I framtida vil språkteknologien og særleg taleprodukta vera ein integrert del av mange typar produkt og hjelpemiddel vi brukar dagleg, og vi vil antakeleg ikkje tenkja over kva som ligg bakom av teknologi, språklege ressursar og kunnskapar om språk og teknologi. Smarthusa har kome for å verta, og å snakka til datamaskinen når du vil ha utført ei oppgåve, vil vera like naturleg som at du snakkar i ein trådlaus telefon.

Ein norsk språkbank

Språkteknologisk forsking og utvikling krev store mengder språkdata. Det same gjeld for tilpassing av utanlandsk teknologi til norsk. Det krevst like store språkressursar for eit lite utbreidd språk som norsk som for verdsspråket engelsk. Ettersom vi har to offisielle målformer og utbreidd bruk av dialektar, krevst det faktisk meir omfattande språkressursar i Noreg. Samstundes får vi òg meir att: Intelligent programvare som taklar språkvariasjonen vår, vil både hjelpa oss til å ta vare på mangfaldet i norsk språkkultur og gje språkforskinga nyttige utfordringar i å beskriva språkleg variasjon. Det må eit nasjonalt lyft til for å samla og leggja til rette språklege fellesressursar for bruk og gjenbruk i ein norsk språkbank. Kostnadene med innsamling og tilretteleging av slike språkressursar er så store at ein einskild institusjon eller ei einskild verksemd ikkje kan makta oppgåva åleine. Sjansen for at språkteknologiske produkt og tenester med norskspråkleg grensesnitt skal verta utvikla og koma på marknaden, aukar om eit tilstrekkeleg stort språkmateriale vert samla inn, tilrettelagt og gjort tilgjengeleg for forsking og industri. Avtaleverket knytt til bruken av innhaldet i språkbanken må vera fleksibelt, men samstundes slik at opphavsrettane vert sikra, og organisasjonen som vert oppretta, må kunna gjera bindande avtalar både med dei som leverer innhald, og med dei som vil bruka innhald. Tyngda av dei økonomiske midlane må koma over offentlege budsjett, og arbeidet bør ta til så snart det let seg gjera praktisk.

Innteningspotensialet for språkteknologiske produkt er lite, men tilgang til norsk språkmateriale frå ein språkbank kan letta og auka sjansane for satsing på både nyutvikling og tilpassing av internasjonale produkt.

Den språkteknologiske satsinga på Voss er eit godt døme på kor avgjerande det er at innhaldet i ein språkbank vert stilt til rådvelde for produktutvikling. Nordisk Språkteknologi (NST) tilpassa eksisterande utanlandsk teknologi, men brukte ein betydeleg del av kapitalen sin til innsamling og tilrettelegging av det språkmaterialet verksemda trong. Hadde verksemda hatt tilgang til språkdata i tilstrekkeleg omfang, kunne ho brukt det meste av arbeidsinnsatsen og kapitalen til utvikling av produkta.

Innhaldet i språkbanken

Ein språkbank må innehalda store mengder tekst og tale som er samla inn, merkte og tilrettelagde for gjenbruk. Dessutan trengst ordlister, terminologisamlingar, emnekatalogar osv. Materialet må vera lagra slik at det lett kan brukast om att. All tekst og tale må tilordnast informasjon om sjanger, opphavsperson, brukssituasjon, opptaksdato o.l. For opptak av tale må ein òg ta med opplysningar om talarens alder, kjønn, dialektbakgrunn m.m. For å handtera det store språkmaterialet må det dessutan utviklast eigna administrativ programvare, og det må etablerast ein administrasjon til å stå for den daglege drifta. Materialet som vert samla inn, vil aldri verta komplett. Språkbanken er ei kontinuerleg verksemd som stadig må få nytt materiale for at innhaldet skal ha høg nok nytteverdi for brukarane. Nytteverdien av innhaldet med tanke på språkteknologisk forsking og utvikling aukar jo nærare det ligg språkbruken i samtida. Dei delane av materialet som etter kvart vert for gamle for slike formål, vil framleis ha stor verdi for språkforskinga.

Ein norsk språkbank – eit nasjonalt korpus – vart utgreidd av ei gruppe forskarar leidd av professor Torbjørn Svendsen i 1999. Temaet vart diskutert i det norske forskings- og utviklingsmiljøet, og det var brei semje om å etablera ein språkbank. Rapporten som vart utarbeidd, bør leggjast til grunn for det vidare arbeidet.

I tillegg har fleire av universiteta store samlingar av lydmateriale (dialektopptak) frå heile landet og har starta på ei digitalisering av dei. Forskingsmiljøa vil kunna medverka med det dei har, og sjølve ha stor nytte av ein språkbank. Når det skal samlast inn nytt materiale, må ein prioritera ut frå dei mest aktuelle bruksområda og det som trengst mest. Språkbanken må vera nasjonens eige, og innhaldet må vera tilgjengeleg for både forsking og industriutvikling. Internasjonale standardar for innsamling, merking og tilrettelegging må brukast for at materialet skal kunna nyttast også i fleirspråklege produkt (maskinell omsetjing t.d.).

Kva vil ein norsk språkbank kosta?

Kostnadene med å samla inn denne typen materiale er dei same for alle språk utan omsyn til talet på brukarar. I Noreg må vi ta utgangspunkt i at vi har to offisielle målformer, bokmål og nynorsk, og at det er allment godteke å bruka dialekt i alle samanhengar; vi har ingen «riksnorsk» uttale. Den rike talemålsvariasjonen fører til at talematerialet må vera større enn for mange andre språk. Denne situasjonen gjer at det i Noreg vert samanfallande interesser mellom språkforsking og industriell forsking og utvikling når det gjeld kravet til variasjon i innhaldet i språkbanken. Kostnadene med skipinga av ein norsk språkbank vert difor større for norsk enn for mange andre språk. Den utbreidde valfridomen innafor dei to skriftnormene gjer også sitt til å auka kostnadene, i tillegg til å gjera utviklingsarbeidet meir krevjande. Det må eit nasjonalt lyft til for å etablera ein slik språkleg fellesressurs, og prosjektet har klare kulturpolitiske overtonar. Offentlege styresmakter bør ta det økonomiske hovudansvaret, og eit spleiselag der ein også opnar for private aktørar, må vera mogleg.

Det er vanskeleg å gje eksakte overslag over kor mykje det vil kosta å oppretta og driva ein språkbank. Ein språkbank må ha eit styre, ein driftsorganisasjon, ein administrasjon og eit innhald. Det første ein må gjera, er å greia ut juridiske problemstillingar om opphavsrett og bruksrett til innhaldet, datafaglege problemstillingar om tilrettelegging av materialet og val av teknologi. Så må ein skaffa finansiering, oppnemna eit styre, avgjera korleis ein vil organisera arbeidet og den daglege drifta og til sist fastsetja kva prinsipp ein vil nytta når det gjeld vederlag for bruk av innhaldet i banken. Til dei første utgreiingane har ein rekna med at det trengst om lag kr 500 000 deretter at ein treng ca. 6 millionar kroner for å koma i gang. Det må finnast eit minsteomfang av språkdata før banken kan seiast å vera nyttig for dei aktuelle brukarane (industri og forsking), og med atterhald om at dette er svært usikre tal, er kostnadene rekna til mellom 60 og 80 millionar kroner. Generell drift, vedlikehald og vidare utvikling kjem i tillegg.

Tekstmateriale som finst, og som er aktuelt for språkbanken, vil antakeleg kunna nyttast med mindre tilordningar, mens talemateriale som finst, kan krevja meir. Innsamling og tilordning av eksisterande og nytt materiale vil strekkja seg over fleire år, og ein kan rekna med at banken vil kunna vera operativ og levera materiale to–tre år etter oppstarten. Tilgang på kvalifisert arbeidskraft vil vera ein avgjerande suksessfaktor for prosjektet.

 

-- Torbjørg Breivik er rådgjevar i Norsk språkråd med norsk språk og IKT som arbeidsområde.

Del denne siden

Del på Facebook Del på Twitter