En grammatikkontroll for bokmål

AV KRISTIN HAGEN, PIA LANE OG TROND TROSTERUD

Det siste året har Tekstlaboratoriet ved Universitetet i Oslo og det finske firmaet Lingsoft utviklet en grammatikkontroll for bokmål. Resultatet blir å finne i Microsofts nye Office-pakke, Office XP, der grammatikkontrollen er lagt inn i tekstbehandleren. Artikkelskriverne Kristin Hagen, Pia Lane og Trond Trosterud har arbeidet med denne grammatikkontrollen.

Hvordan virker grammatikkontrollen, og hvilke feil finner den?

Grammatikkontrollen finner feil som stavekontrollen alene ikke kan se. En setning som Hvor intimt er individets politiske frihet knyttet til den almene konsumentfrihet? går greit igjennom stavekontrollen fordi almene er en bøyingsform av substantivet alm. I denne setningen er imidlertid almene en feilskriving av adjektivet allmenne, og grammatikkontrollen vil oppdage at noe er galt.

Grammatikkontrollen fungerer på periodenivå. Første steget er derfor å gjøre teksten klar for analyse ved å preposessere den, det vil si at blant annet forkortelser og periodegrenser blir identifisert. Deretter blir ordformene i setningen sjekket opp mot et leksikon med en morfologisk komponent. Her blir for eksempel frihet fra eksempelsetningen ovenfor gjenkjent som substantiv, knyttet får både merkelappene substantiv, adjektiv og verb. Flertydige analyser blir så entydiggjort eller disambiguert. Knyttet vil for eksempel bare stå igjen med en verblesning etter at de andre lesningene er forkastet. Til disambigueringen brukes en omarbeidet versjon av en tagger som opprinnelig ble utviklet av Tekstlaboratoriet. Den opprinnelige taggeren er tilgjengelig på verdensveven, se http://decentius.hit.uib.no/cl/cgp/test.html.

Når ordene i perioden er entydiggjort, blir resultatet sjekket opp mot en komponent som forsøker å finne feil. Det er denne komponenten som kan fortelle at noe er galt i eksemplet den almene. Grammatikkontrollen er laget etter en metode som kalles Constraint Grammar eller føringsbasert grammatikk. Den svenske grammatikkontrollen Grammatifix er brukt som arbeidsmodell, men vi har lagt mye arbeid i å omarbeide den til norske forhold.

Grammatikkontrollen sjekker altså flere ord om gangen, i motsetning til stavekontrollen, som

sjekker ett og ett. De viktigste feiltypene grammatikkontrollen prøver å finne, er manglende samsvar i kjønn og tall i substantivfraser (en hus, et eplene), bestemthetsfeil (et huset, et grønne hus), subjekt-predikativ-samsvar, og bruk av ingen/noen ved nekting (ikke ingen vs. ikke noen). Kontrollen retter finitt verb etter hjelpeverb (han kan snakker), perfektum partisipp uten ha, for mange eller ingen finitte verb i setningen, og feil bruk av s-passiv. Av ordstillingsfeil retter grammatikkontrollen feil i samband med omvendt ordstilling (I dag han kom) og plassering av adverb i leddsetning (... om hun sover ikke). Feil pronomenkasus ved preposisjon (Kom med jeg!) blir også rettet. Dessuten retter grammatikkontrollen og/å-feil i verbkontekster.

Når grammatikkontrollen har funnet en feil, gir den brukeren en kort feilmelding, et forslag til retting og en henvisning til en lengre hjelpetekst eller grammatikk som brukeren kan slå opp i om han eller hun fortsatt er usikker. Under verktøymenyen i tekstbehandleren har brukeren muligheten til å velge eller velge bort om hver enkelt feiltype skal sjekkes av grammatikkontrollen.

En stor del av reglene i grammatikkontrollen tar for seg ortografiske regler av den typen som er presentert i Finn-Erik Vinjes Skriveregler. Brukeren blir advart mot flere mellomrom, komma eller andre tegn etter hverandre. Grammatikkontrollen sjekker også om det er like mange høyre- som venstreparenteser, osv. Skrivemåten av telefonnummer, desimaltall og store tall blir dessuten standardisert.

Kanskje kan en tvile på om folk virkelig gjør slike "dumme" feil som er beskrevet ovenfor, men det gjør de! I forbindelse med utviklingen av det norske programmet har vi testet over 4 millioner ord, hovedsakelig fra avistekster som har vært trykt, og selv i trykte tekster florerer feil av typen:

Hun er bekymret for leien i en erstatningsleiligheten.

Han avventet i går resultater av åstedsgranskernes arbeid og 32-åringens egne forklaring.

I en av forretningen beslagla politiet 2000 filmer.

... at Sigurd Rushfeldt avgjorde årets cupfinale med sitt scoring i kampens siste sekunder.

Å finne en strekspiller har tradisjonelt vært en problem for det norske herrelandslaget.

Grunnen kan være at risikoen for å blir oppdaget er blitt så stor at ...

Slike feil skyldes sannsynligvis "klipp og lim"-funksjonen i tekstbehandleren, eller at forfatteren av teksten har vurdert flere uttrykksmåter og gått videre med skrivingen uten å ha bestemt seg.

Feilene ovenfor er grammatiske feil. I mange tilfelle gjør folk imidlertid rene skrivefeil som resulterer i eksisterende ord slik som i eksemplet med almene ovenfor. Her er tradisjonelle stavekontroller hjelpeløse, men ofte kan grammatikkontrollen hjelpe. Et annet autentisk eksempel er Den økte oppslutningen i helgen har gikk opposisjonen nytt håp. Reaksjonen fra grammatikkontrollen var: "Kontroller verbformene har gikk. Det ser ut som om setningen har for mange finitte verb." Grammatikkontrollen finner med andre ord ikke bare grammatiske feil, men også skrivefeil som tradisjonelle stavekontroller ikke finner, og på denne måten representerer den et stort skritt framover.

Hva slags feil er det grammatikkontrollen ikke finner?

Det at ordene er analysert på forhånd av en tagger, gjør at grammatikkontrollen ikke vil gi brukeren feilmelding dersom for eksempel den almene er brukt i en setning der den og almene ikke står i samme frase: I dag blåste den almene overende. Men grammatikkontrollen forstår ikke hva ordene betyr, og det er derfor grenser for hvilke feil den kan programmeres til å finne. I setningen De lydene er almene kan ikke feilskrivingen almene avsløres fordi almene (som et treslag) kan være korrekt dersom den etterfølgende setningen er slik: De lydene er almene. De blåser i vinden.

Mange norske ord er flertydige både når det gjelder ordklasse og betydning, og dette kan være grunnen til at grammatikkontrollen ikke finner det som ser ut til å være opplagte feil. Grammatikkontrollen skal for eksempel avsløre når det kommer to finitte verb etter hverandre. Dette går greit i denne setningen: Jeg er har vært i byen, men ikke her: Toåringen tegner maler med vannfarger. For grammatikkontrollen er denne setningen like riktig eller gal som for eksempel setningen Læreren retter stiler om kvelden. Siden grammatikkontrollen ikke kan programmeres til å forstå at en toåring neppe vil tegne maler (sjablonger), men at en lærer høyst sannsynlig vil rette stiler, vil grammatikkontrollen kun se at det i begge setningene er to ord ved siden av hverandre som både kan være finitt verb og substantiv. I dette tilfellet har vi valgt at grammatikkontrollen ikke skal gi brukeren feilmelding dersom verbene er flertydige, men dette fører altså til at grammatikkontrollen vil være ute av stand til å finne en del feil som er opplagte for oss som forstår hva ordene betyr.

Under arbeidet med grammatikkontrollen har vi stadig stått overfor tilsvarende valg: Skal grammatikkontrollen gi flest mulige feilmeldinger og risikere at mange av feilmeldingene er falske, eller skal den bare gi sikre feilmeldinger og risikere at mange feil blir oversett? Mange falske feilmeldinger er forstyrrende og fører gjerne til at brukeren slår av hele kontrollen. Derfor har vi forsøkt å få antallet falske feilmeldinger ned til et minimum selv om dette i noen grad har gått ut over grammatikkontrollens evne til å finne reelle feil.

Feil melding til riktig feil

Ofte finner grammatikkontrollen feilen, men klarer ikke å gi riktig beskjed om hva som er galt. I eksemplet med den almene konsumentfriheten burde diagnosen selvsagt ha vært at brukeren hadde skrevet adjektivet allmenne feil. Men siden programmet ikke forstår betydningen av hvert enkelt ord eller ikke har evnen til å gjette hva skribenten har ment, diagnosen feilaktig at det ikke kan forekomme et substantiv i flertall etter entallsartikkelen den. Slike feilmeldinger kan sikkert virke frustrerende på mange brukere. Utfordringen blir å forstå at grammatikkontrollen ikke forstår norsk, bli glad for at feilen er funnet, og selv rette den almene konsumentfriheten til den allmenne konsumentfriheten, heller enn å bruke dagen på å ergre seg over rettingsforslaget de almene konsumentfriheten. Tilsvarende må brukeren selv rette gikk til gitt i … har gikk opposisjonen …

Selv om grammatikkontrollen kan gi gal diagnose og feilmelding, finner den i alle fall feilen. Mange ganger er det umulig å gjette hva brukeren har ment. Den båtene er utvilsomt feil, men frasen kan være en feilskriving for både de båtene, den båten, og de bårene. Vår vurdering har vært at det overordnede for brukeren må være å bli gjort oppmerksom på feilen, og at dette vil overskygge ergrelsene eller latteren over de feilaktige forslagene. Om vi har rett, vil vise seg.

Grammatikkontrollen og Språkrådet

I og med at grammatikkontrollen analyserer ord i kontekst, blir rettskrivingskontrollen mer finmasket enn før. Dermed vil en god del språkrådsvedtak som tidligere ikke angikk andre enn skoleverk og forlagsbransje, bli synliggjort for folk flest. Disse eksemplene er hentet fra norske avistekster:

Dessuten står seks lastebiler på en idrettsstadion. ---> et stadion

... at flytrafikken over India har hatt en sterk oppsving i 1990-årene ... ---> et oppsving

Alle genre er representert .. . ---> genrer

Et godt utbygget kollektivnett er det som vil bidra mest ... --->utbygd

Et stort ansvar hviler på vår unge kulturministers skuldre. ---> skuldrer

... ny kino-satsing på østkanten betinges av at andre tyngre kulturtilbud er tilstede først. ---> til stede

... laget kom i mål med tre seire og 13,0 poeng ---> tre seirer

Min drømmemann er han som forstår at mensen én gang i måneden er et avlat for å slippe å bære byrden det er å være Mann. ---> en avlat

Også når det gjelder tegnbruk og talluttrykk, vil brukerne kunne få seg en overraskelse dersom de ikke har finlest Finn-Erik Vinjes Skriveregler tidligere.

At konflikten mellom offisiell norm og de facto-norm på denne måten blir synliggjort, ser vi på som positivt. Skal Språkrådet fungere som normativt organ, trenger det kanaler å formidle denne normen gjennom. Så får framtida vise hva som blir resultatet av en slik konfrontasjon.

Denne grammatikkontrollen kan uten overdrivelse bli karakterisert som Norges hittil største voksenopplæringstiltak i grammatikk. Allerede de korte feilmeldingene gir en grammatisk analyse av konstruksjonen. De lange hjelpetekstene er omfattende, på til sammen ca. 25 A4-sider, og de inneholder grundigere forklaringer både av konstruksjonene og av terminologien som er brukt. Hvordan det norske folk vil reagere på så mye grammatisk terminologi og informasjon, vet vi ikke. De av Språknytts lesere som er norsklærere, bør i alle fall merke seg at de her har fått et nytt og uventet hjelpemiddel for presentasjon av pensumet de prøver å formidle i skoletida, et hjelpemiddel de bør gjøre seg kjent med.

Utviklingsmuligheter

Denne grammatikkontrollen er første versjon av den første grammatikkontrollen som er laget for bokmål. Utviklingspotensialet er stort, ikke minst fordi den første versjonen er laget på oppdrag med kort tidsfrist. Det ble derfor ikke tid til å utvikle den for alle feiltyper i alle kontekster slik det hadde vært ønskelig. Det neste tiåret vil sikkert framvise store framskritt. Det er for eksempel mulig å tenke seg ulike skreddersydde versjoner: Grammatikkontroll for fremmedspråklige, for elever på ulike klassetrinn, for dyslektikere, for ulike genrer og for ulike firmaer. Grammatikkontrollteknologi kan også integreres i andre sammenhenger, for eksempel med elektroniske ordbøker, eller med pedagogisk programvare til grammatikk- og språkopplæring. Det siste er allerede gjort både for dansk og for mange andre språk. De som vil teste sine ferdigheter i grammatisk analyse og samtidig se hva føringsbasert grammatikk kan brukes til, kan gå til http://visl.hum.sdu.dk/.

Microsoft ville bare ha en grammatikkontroll for bokmål, ikke for nynorsk. Dette er selvfølgelig svært beklagelig, og vi kan bare håpe at det også vil bli laget en grammatikkontroll for nynorsk i nær framtid. Om det skjer, er blant annet avhengig av brukernes reaksjoner, men også av hvilken politisk linje det offentlige velger.

 

-- Kristin Hagen er språkingeniør vedTekstlaboratoriet ved Universitetet i Oslo.
-- Pia Lane er stipendiat ved Institutt for lingvistiske fag ved Universitetet i Oslo.
-- Trond Trosterud er forskar ved Samisk institutt ved Universitetet i Tromsø.)

Del denne siden

Del på Facebook Del på Twitter

Publisert:14.11.2003 | Oppdatert:18.06.2015