Hva bør en språkteknologisk satsing inneholde?

Hva en norsk språkteknologisk satsing bør inneholde, avhenger åpenbart av hvilke utilfredsstilte behov vi ser rundt oss, som må tilfredsstilles hvis en norsk språkteknologi skal komme på bena. Jeg vil diskutere disse behovene under tre overskrifter:

Kunnskap
Ressurser
Holdninger

1 Kunnskap

Her kan vi igjen skille mellom tre typer av kunnskap:

a Datalingvistisk og språkteknologisk fagkunnskap
b Kunnskap, i egnede former, om norsk språk
c Kunnskap om markedets behov

a Datalingvistisk og språkteknologisk fagkunnskap

Foreløpig befinner slik fagkunnskap seg først og fremst i de datalingvistiske og teknologiske miljøene ved universitetene i Oslo, Bergen og Trondheim, og i bedrifter som f.eks. Telenor, Nordisk Språkteknologi og LingSoft. Forskningsmiljøene er små, og klart mindre enn den kritiske masse som må til for å vedlikeholde en grunnforsknings- og utdannelsesinnsats som kan understøtte en språkteknologisk satsing i Norge. Den datalingvistiske og språkteknologiske kunnskapen er internasjonal, men som alltid er det nødvendig å ha aktive forskningsmiljøer også her hjemme hvis vi skal kunne utnytte resultatene av den internasjonale forskningen, og hvis vi skal kunne utdanne de fagfolkene som trenges.

I tillegg til den spesialiserte fagkunnskap om datalingvistikk og språkteknologi som må utvikles og vedlikeholdes i forskningsmiljøene, kan vi også snakke om det språkteknologiske dannelsesnivå vi kan ønske oss for eksempel i universitets- og fakultetsledelsene, i Forskningsrådet, hos bevilgende myndigheter, i Språkrådet, i IT-miljøene, hos journalister, og i det hele tatt hos aktører medinnflytelse på prioriteringene. Et slikt dannelsesnivå bør f.eks. sette en aktør i stand til å skille mellom et potensielt produkt neste år, et potensielt produkt om 20 år, og en naiv utopi, og det bør sette henne i stand til å stille ubehagelig pertinente spørsmål under glatte demonstrasjoner av nye språkteknologiske produkter. Dette kan vi nærme oss hvis vi klarer å bevege flere studenter til å inkludere f.eks. datalingvistiske og språkteknologiske emner i sine fagkretser: En utfordring for fagmiljøene.

b Kunnskap, i egnede former, om norsk språk

Behovet for egnet kunnskap om norsk språk, innenfor ganske bestemte typer av forståelsesrammer, er hovedgrunnen til at vi trenger en egen norsk språkteknologisk satsing. Omfattende deskriptive studier av norsk uttale, særlig innenfor et akustisk rammeverk av den typen en språkteknologi trenger, er mangelvare. Videre trenger vi grammatikker – ikke beskrivelser i prosa, men formelle grammatikker som kan tolkes av analyse- og genereringsalgoritmer, grammatikker som er formulert i en formalisme tilpasset formålet med det aktuelle produkt. Og vi har behov for elektroniske ordbøker, eller leksikalske databaser, som tilfredsstiller langt strengere og til dels andre krav enn vanlige utgitte ordbøker gjør.

Vi diskuterer ofte grensene for hva det er mulig å få til av språkteknologiske produkter, for eksempel automatisk oversettelse eller tekstforståelse. Dette finnes det ulike forventninger om. Men uansett hvor langt vi kan komme, er det kanskje ikke for dristig å antyde at den viktigste forklaringen på avstanden mellom det stedet og der vi er i dag, ligger i mangelen av dekkende og tilpassede beskrivelser av språkenes leksika, deres ordforråd. På dette feltet trenger vi både en videreutvikling av teoretiske redskaper og et omfattende deskriptivt arbeid.

En annen viktig dimensjon i den nødvendige kunnskapen om norsk språk etableres av våre spesielle språkforhold, med to offisielle skriftspråk, hvert med store variasjonsmuligheter underlagt innviklede og ofte uskrevne begrensninger på hva som hører sammen med hva. Selv omvariasjon er et normalt skriftspråkfenomen, finner vi antagelig ikkemaken til Norges spesielle skriftspråksituasjon noen andre steder i verden. Derfor er de produkter vi måtte ønske å tilpasse til norsk, ofte ikke innrettet slik at denne type variasjonsbredde uten videre kan ivaretas. Med andre ord, vår skriftspråksituasjon er enda en grunn til at norsk språkteknologi ikke bare kan være et spørsmål om å tilpasse utenlandske produkter til norsk. Selve produktets arkitektur må ha tatt høyde for denne typen behov, som dessuten stiller krav til kunnskap om hvordan norsk skriftspråk faktisk ser ut: Hvilket spekter av de offisielt tillatte formene blir faktisk brukt, for eksempel, og hvordan grupperer de seg i operative subnormer?

I et foredrag påpekte Kåre Lilleholt fra Norsk språkråd mange viktige hensyn en norsk språkteknologi bør ivareta. Men han kom også med følgende uttalelse:

«Styresmaktene må ha et ord med i laget om hva som er god og rett norsk.»

Både som lingvist og som interessert skriftspråkbruker kunne jeg tenke meg å ta avstand fra dette. Hva som er god og rett skriftlig norsk, er et empirisk spørsmål man studerer gjennom å undersøke hvordan folk faktisk skriver, og hvordan kompetente språkbrukere evaluerer det. Det er et spørsmål om å avsløre de uskrevne operative normer som regulerer faktisk språkbruk og tolkningen av den; det er ikke noe som vedtas av våre myndigheter. Selv om et demokratisk valgt Storting skulle finne på å beslutte at x er god og rett norsk, eller at y er dårlig stil, så forblir det et meningsløst vedtak hvis det er faktisk galt, og et overflødig vedtak hvis det er faktisk riktig. Det ville være et vedtak som røpet en grunnleggende sviktende forståelse av hva et språk er. (Noe annet er at myndighetene kan vedta at offentlige dokumenter skal skrives på en viss måte – det er noe annet enn å vedta at det er god og rett norsk.)

Hvorfor så mange ord om dette akademiske spørsmål? Av følgende grunn: Hvis vi virkelig er redde for at normeringen av den norsk som språkteknologien skal snakke og skrive, skal bli overtatt av bedrifter med kortsiktig fortjeneste som siktemål, så må vi ikke ri oss selv ut over sidelinjen på preskriptive kjepphester. Vi må skille klart mellom de preskriptive normer som er nedfelt i offisielle vedtak, og de operative normer som styrer det folk faktisk skriver og ved ettertanke finner i orden, vi må undersøke hvilke de sistnevnte er gjennom korpusbaserte studier, og vi må legge dem til grunn for språkressursutviklingen. Eller sagt på en annen måte: Vi må ikke av ideologiske grunner belemre norsk språkteknologi med et kaos av valgfrie former som aldri blir brukt.

c Kunnskap om markedets behov

Det er ikke universitetenes oppgave å utvikle markedsklare språkteknologiske produkter. Én grunn er at de ikke har, og ikke bør bruke sine ressurser på å utvikle, den markedskunnskap som trenges. En annen er at de ikke skal konkurrere med sine studenters fremtidige arbeidsgivere. En tredje er at det ville ta ressurser bort fra den mer grunnleggende forskningen, som det neppe er noen andre som vil ivareta.

Samtidig er det viktig at den grunnleggende forskningen og undervisningen som finner sted ved universitetene, er informert om markedets behov, og om nye produkter. Det kan skje gjennom gode kontakter mellom den språkteknologiske industrien og forskningsmiljøene. Vi bør ta sikte på et samarbeid mellom universitet og industri om hovedfags- og doktorgradsprosjekter der våre kandidater kan lære den anvendte og markedsorienterte siden av faget å kjenne, og der kunnskap om dette også tilflyter resten av forskningsmiljøene. Selv om ikke all forskning skal være anvendt forskning, vil slik kunnskap klart være en verdifull og potensielt retningsgivende inspirasjonskilde også for grunnforskningen.

2 Ressurser

Med ressurser menes her gjenbrukbare språkressurser. Våre dagers vekt på gjenbrukbare språkressurser har sin bakgrunn i den tradisjonelle situasjonen at slike ressurser – leksikalske databaser, tekstkorpora – oftest ble utviklet spesielt for det enkelte prosjekt eller det enkelte produkt. Dette er både uøkonomisk og uhensiktsmessig.

Utvikling av gjenbrukbare språkressurser fremstår som ett av de mest presserende områdene innenfor en norsk språkteknologisk satsing. Norge ligger etter sine naboland i utviklingen av gjenbrukbare språkressurser, selv om enkelte prosjekter er igang.

Elektroniske tekstkorpora er på mange måter den basale typen ressurs: store, skjønnsomt sammensatte tekstsamlinger, med kodet informasjon om tekstenes struktur og ordforekomstenes grammatiske egenskaper i form av tagger. Tagging av ordformer innebærer at hver enkelt ordform i teksten får tilføyd informasjon om hvilken oppslagsform den er en form av, og hvilke grammatiske kategorier den uttrykker. Slik tagging kan skje tilnærmet automatisk, men forutsetter da en viss type grammatikk, og et leksikon.

Samtidig er det taggede korpuset selv en ressurs for utvikling av grammatikker for andre formål, som f.eks. tekstforståelse eller maskinoversettelse. Da trenges grammatikker med større uttrykkskraft og andre formelle egenskaper. Videre er korpora også en uunnværlig ressurs ved utviklingen av mer omfattende leksika, eller leksikalske databaser. Taleteknologiske produkter trenger et ordforråd med fonetisk informasjon knyttet til oppslagene, og tekstforståelse, inferanse, informasjonssøkning, flerspråklig tekstbehandling og maskinoversettelse trenger ordforråd med semantisk informasjon knyttet til oppslagene.

Utvikling av ressurser må alltid tenkes sammen med så presise ideer som mulig om hva de skal brukes til. Gjenbrukbarhet sikres da bare hvis man har et så bredt spektrum av anvendelsesmuligheter som mulig i tankene, og det tilsier at utviklingen skjer i et åpent miljø med størst mulig kontaktflate mot ulike prosjekter som bruker ressursene.

Ideelt sett bør utviklingen av slike fellesressurser finansieres offentlig, og offentlig finansierte ressurser bør være fritt tilgjengelige både for forskningsformål og kommersielle formål. Men ved denne typen ressurser havner vi øyeblikkelig i vanskelige rettighetsproblemer. Tekstkorpora har forfattere hvis interesser naturligvis må ivaretas, og dette legger i praksis begrensninger på anvendeligheten. Hvis en felles språkteknologisk satsing kunne føre til fungerende løsninger på dette feltet, ville vi være kommet et langt skritt videre.

3 Holdninger

Allerede sammensetningen språkteknologi avbilder sammenføyningen av to kulturer: den humanistiske og den teknologiske. Men egentlig har vi to ganger to kulturer: På tvers av grensen mellom humaniora og teknologi går grensen mellom forskning og næringsliv. Og når fire kulturer møtes, er kollisjonsfaren stor. Teknologer og realister er utvilsomt mervant til å forholde seg til grensen mellom forskning og næringsliv enn humanister er. At humanistisk innsikt er teknologisk anvendelig, og derigjennom kommersielt interessant, er et forholdsvis nytt fenomen. Derfor er kanskje skepsisen til at teknologiske hensyn og markedsforhold skal være premissleverandører for forskningen, ekstra sterk i enkelte humanistiske miljøer.

Jeg tror ikke vi bør avfeie disse problemene som irrasjonelle, men prøve å skille mellom fordommer og legitime bekymringer. Underkategorien 'fordom' kan man rubrisere den holdning at en teknologisk tilnærming til språk er farlig fordi den må se bort fra alt som gjør språk til et humanistisk anliggende: språk som et sentralt kulturfenomen og språk som et meningsskapende redskap for mennesket. Tvert imot, kunne man si – i et historisk perspektiv fremtrer det som helt normalt at ny teknologigir nye forståelsesrammer for humanistiske emner, fra trykkekunsten til moderne massemedier. Det spesielle ved den moderne språkteknologien er den tydeligere teknologiske anvendbarheten av humanistisk innsikt den innebærer. Og den forutsetteri sin tur at språklige fenomener studeres ved hjelp av mer formelle og matematiske redskaper enn man ellers typisk finner i humanistiske miljøer (selv om lingvistiske miljøer har brukt slike teoretiske redskaper lenge). Her står vi overfor en holdningsbarriere som bør angripes hvis vi vil øke rekrutteringen til språkteknologiske emner: den holdning at formelle metoder – formell logikk, modellteoretisk semantikk, formell grammatikk- og automatteori, parsingteori, statistikk – er vesensfremmede for humanistiske fag og noe studenter ved humanistiske fakulteter med god samvittighet kan sky.

Samtidig finnes det en legitim bekymring her, som ikke behøver å være fordomsfull, nemlig at en teknologisk motivert satsing av den art vi snakker om, kan komme til å undervurdere behovet for mer langsiktig grunnforskning, og til å se bort fra at hvis slik forskning ikke får skje ved universitetene, så vil den ikke finne sted – i hvert fall ikke i et land uten bedrifter store nok til å drive egen grunnforskning. Det språkteknologiske forskningsprogrammet i EUs fjerde rammeprogram kunne gi opphav til slike refleksjoner. Der skulle ethvert prosjekt ikke bare ha en industriell partner, men også være ledet av en industriell partner, og dertil skulle veien til det ferdige produkt være klart synlig på forhånd og helst ikke ta mer enn tre år. Det var altså ikke tale om å utvikle ny kunnskap, men om å applisere eksisterende kunnskap.

Nå kan det være gode grunner til at den språkteknologiske satsingen i EU fikk denne formen. I visse perioder kan det naturligvis være velmotivert å prioritere applikasjon av eksisterende kunnskap foran utvikling av nykunnskap. Men den språkteknologiske satsingen i Norge bør ikke få denne formen. Den bør også reflektere inn en plass for grunnforskningen – men da vel å merke en grunnforskning som er engasjert i mulige språkteknologiske anvendelser og informert om markedets behov. Kanskje vi burde snakke om en anvendelsesorientert grunnforskning. Poenget er at satsingen også må gi rom for mer langsiktige prosjekter med sikte på å skaffe til veie ny grunnleggende kunnskap, i tillegg til de prosjektene som skal ha et salgbart produkt i den andre enden. Ellers tror jeg de små kildene vi foreløpig har til denne kunnskapsbaserte industrien, fort vil tørke inn.

-- Helge Dyvik er professor i allmenn lingvistikk ved Seksjon for lingvistiske fag, Universitetet i Bergen. Han har vori aktiv i å utvikla faget datalingvistikk ved instituttet sitt frå byrjinga av åttiåra.

Del denne siden