Stavekontrollen: ven eller fiende?

No image

Stavekontrollen deler ord som by trikken i to, på engelsk vis altså, sjølv om det er feil på norsk. Kvifor er ikkje stavekontrollen smartare?

AV SJUR NØRSTEBØ MOSHAGEN

Alle veit vel kva ein stavekontroll er: Det er den der raude streken som kjem under feilskrivne ord. Men av og til kjem den raude streken under ord som ikkje er feilskrivne, og det er ikkje alle skrivefeil som blir oppdaga. Kvifor er det slik at han ikkje oppdagar eller klarar å retta feila vi gjer?

Meir eller mindre kontroll

For dei fleste av oss er ein stavekontroll eit dataprogram som sjekkar rettskrivinga – eller rettstavinga – av eitt og eitt ord. Programmet ser ikkje setninga som ordet står i, og programmet bryr seg ikkje om kva ordet betyr eller kan bety i ulike samanhengar. Det einaste programmet gjer, er å spørja seg: Er dette eit ord eg veit er korrekt skrive? Er svaret ja, går programmet vidare til neste ord. Er svaret nei, lagar det ein raud strek under ordet før det går vidare.

Den andre delen av retteprogrammet lagar forslag til rettingar: Om brukaren klikkar på eit ord med raud strek, prøver programmet å finna liknande ord som er rett stava, og føreslår dei for brukaren – framleis utan å sjå på orda ikring eller bry seg om kva dei betyr.

Det er tilsynelatande enkelt og rett fram. Men verda er alltid meir komplisert enn ho fyrst ser ut til å vera. For det fyrste: Kva er rett staving av eit ord, særleg samansette ord?

Rett staving

Språkrådet prøvde å normera ordsamansetjingar på slutten av 90-talet, men med eit ganske tvilsamt resultat, og dei trekte raskt normeringa attende. Samansette ord fylgjer eit samansett mønster, og kva som er rett og feil, varierer med dialekt, tydinga av enkeltdelane og korleis delane av eit samansett ord står i høve til kvarandre.

Til dømes er orda bytrikktur og bytrikketur begge fine og meiningsfulle, men med ein hårfin skilnad i tyding: ein tur med bytrikken mot ein trikketur i byen. Stavekontrollen min kjenner ikkje att nokre av orda og føreslår heilt andre ord.

Og då er vi over på eit evig tilbakevendande tema: Er det stavekontrollen eller engelsken sin feil at folk deler samansette ord i hytt og vær? For ordet bytrikken er det fyrste forslaget «by trikken» – men det er jo ikkje same sak, og heilt feil i samanhengen. På grunn av den engelske dominansen i språkteknologien og dataverda fell forslaget frå stavekontrollen i hop med eit kjent mønster frå engelsk, som vanlegvis ikkje skriv samansette ord i lag. Det gjer at usikre skribentar lett tek forslaget for god fisk.

Teknologien bak

Litt forenkla kan vi dela opp retteprogramma i to grupper: ordlister og språkmodellar. Ordlisteprogramma er, som namnet seier, rett og slett ei stor liste med ord. Språkmodellprogramma prøver på si side å laga ein modell av korleis orda i språket er bygd opp, med ei grunnform, bøyingar og avleiingar og reglar for korleis orda kan setjast saman til nye, samansette ord. I praksis er dei fleste retteprogramma ei blanding av desse to typane, men med hovudvekt i den eine eller andre retninga.

Dei fleste stavekontrollprogramma er av listetypen. Dei er laga av open kjeldekode og er vidareutvikla frå amerikanske iSpell frå 70-talet. Programmet tek ei lang liste med korrekte ord og nokre enkle kodar for bøying og kombinerer det med ein modell over dei vanlegaste skrivefeila i engelsk. I lag blir det ein heilt ok stavekontroll – for engelsk.

Eit meir utvikla program er Hunspell, eit slags iSpell tilpassa ungarsk, med mykje bøying, avleiing og samansette ord. Men framleis er programma i grunn og botn ei veldig lang liste med ord, der det er tungvint og uhandterleg å leggja til kodar for bøying og avleiing. Resultatet er at dei norske stavekontrollane i program som LibreOffice og OpenOffice ofte manglar éi eller fleire former av eit ord, sjølv om andre former av det same ordet er med.

Kompromiss

Dømet med bytrikken viser at Microsoft sin (nynorske) stavekontroll i hovudsak òg er av listetypen. Ordet blir ikkje kjent att, og det fyrste forslaget er dei to enkeltorda kvar for seg. Samtidig er det ikkje så enkelt som å seia at Microsoft har ei lang liste utan grammatisk informasjon: Viss enkeltorda i det samansette ordet er lengre, aksepterer Microsoft sin stavekontroll korrekte samansetjingar: kommunestyrerepresentantskap. Men viss ordet er feilskrive, vil ikkje stavekontrollen føreslå noko.

Grunnen er at Microsoft prøver å handtera utfordringa med samansette ord med eit kompromiss: Dei blokkerer samansetjingar med korte ord (by, øy, bil osb.), medan dei tillét samansetjingar med lange enkeltord. Tankegangen er rett og slett at samansetjingar med korte ord veldig lett kan dekkja over skrivefeil, medan samansetjingar med lengre ord svært sjeldan fører til slike forvekslingar. Difor er det trygt å tillata dei.

På norsk er det ofte ein s eller ein e mellom orda i samansetjinga (bindebokstavar), eller det kan vera ingenting. Det finst reglar for dette som alle morsmålstalarar kan, og ofte – men ikkje alltid – er det feil å velja e i staden for s eller ingenting, og omvendt. Microsoft sin stavekontroll vil i mange tilfelle tillata alle variantane, både baklengsordboksliste, baklengsordbokliste og baklengsordbokeliste, sjølv om det berre er dei to fyrste som er korrekte.

For mange forslag?

Dei fleste dataprogram har eit grafisk grensesnitt, eit «ansikt» som det viser mot verda utanfor. Det kan vera vindauge, ikonar, lydar osb. Stavekontrollen har to: den raude streken og forslaga til skrivemåte.

Forslaga er det grensesnittet folk legg merke til og ofte vurderer stavekontrollen etter. Ytterpunkta i utforminga av grensesnittet er det å aldri gje forslag, det vil seie å berre vise den raude streken, og det å alltid gje forslag, gjerne mange forslag, uansett kor langt unna det feilskrivne ordet forslaga ligg. Dei fleste stavekontrollane ligg ein stad imellom desse ytterpunkta. Her skil stavekontrollen til Hunspell seg ut. Han gjev alltid forslag, og resultata kan bli ganske humoristiske:

Microsoft lèt heller vera å gje forslag enn å føreslå noko som ikkje brukaren ventar seg. Det fører til ein reell kvalitetsskilnad mellom Hunspell og Microsoft: Viss ein feilskriv eit ord som kommunestyrerepresentantskap, vil ikkje Microsoft gje eit einaste forslag, medan Hunspell ofte vil gje eit korrekt forslag. Ved feilskrivingar av relativt korte ord vil derimot Hunspell ofte gje ei kjempelang liste med meir eller mindre kreative forslag til rettingar, medan Microsoft berre gjev nokre få, og aldri meir enn fem. Dei mange irrelevante forslaga fungerer som støy, og brukaren vil ikkje vera i stand til å finna den riktige rettinga utan å finlesa lista nøye. Ei liste med maksimum fem forslag vil vera oversiktleg og lett å velja frå.

Det beste ville vera berre å gje forslag som brukaren vil ha, men så lenge stavekontrollen ikkje kan sjå resten av setninga, berre eitt og eitt ord, er ikkje det mogleg. Stavekontrollen er med andre ord eit kompromiss mellom ulike omsyn: det å ikkje sleppa gjennom for mange skrivefeil, men samtidig tillata samansette ord, og det å ikkje føreslå for mykje, men samtidig prøva å føreslå så ofte som mogleg.

Språkmodellar

Eit døme på stavekontrollar som byggjer heilt på ein modell av språket og korleis orda i det oppfører seg, er den finske stavekontrollen i Microsoft Office og dei samiske stavekontrollane utvikla ved Universitetet i Tromsø – Noregs arktiske universitet. Dei byggjer på ei liste av grunnformer, og for kvar grunnform er det opplyst korleis ordet blir bøygd, korleis det lagar nye ord med ulike endingar og avleiingar, og korleis det kan laga samansette ord. Ved å laga ein modell som er så komplett og korrekt som mogleg, vil resultatet bli ein stavekontroll som fangar opp det meste av språkleg kreativitet samtidig som han fangar opp dei fleste skrivefeila.

Resultata viser at stavekontrollane frå UiT konkurrerer bra med stavekontrollane frå Microsoft, og at dei oftast klarar seg betre enn det opne alternativet Hunspell. UiT-stavekontrollane for samisk er òg opne og byggjer på teknologi frå og samarbeid med Helsingfors universitet.

For at stavekontrollar og språkverktøy for norsk skal bil betre, bør ein altså leggja ein modell av språket til grunn og ikkje berre byggja lister med ord. Problemet med ein manglande språkmodell kan ein illustrere med eit bilete frå Microsoft Word:

Rett brukt er stavekontrollen eit nyttig verktøy, men han blir ikkje betre enn lingvistikken bakom han.

 

-- Sjur Nørstebø Moshagen er prosjektleiar i Divvun-gruppa ved UiT – Noregs arktiske universitet. Divvun-gruppa lagar retteprogram og andre språkverktøy for samisk.

Del denne siden

Del på Facebook Del på Twitter