Nettbasert nyordinnsamling

AV BOYE WANGENSTEEN

Ved Seksjon for leksikografi og målføregransking ved Universitetet i Oslo (fram til 1990 Norsk leksikografisk institutt) har vi registrert nyord og andre utviklingstrekk i norsk bokmål i over 30 år. Fra slutten av 60-åra og til slutten av 90-åra foregikk registreringen ved hjelp av frivillige ekserptorer, som sendte inn nye ord og uttrykk og eksempel på nye betydninger av eksisterende ord, noe som resulterte i et stort og verdifullt materiale.

Leksikografisk arbeid har i den seinere tid blitt mer og mer basert på datamaskiner, og i slutten av 90-åra tok en til å se seg om etter andre metoder for innsamling. Et prosjekt som er satt i gang av Knut Hofland ved Senter for humanistisk informasjonsteknologi (HIT-senteret) i Bergen bød på en interessant mulighet. Ved hjelp av et helautomatisk system blir det hver dag hentet inn tekster fra nettet, som blir klargjort for søking. I all hovedsak blir tekstene hentet fra nettutgavene til de største norske avisene. Denne automatiske innsamlingen begynte høsten 1998, og etter ca. tre og et halvt år (april 2002) har tekstmengdene kommet opp i over 190 millioner ord, og materialet vokser med ca. 5 millioner ord i måneden.

Hver dag blir det automatisk laget en ordliste for dagens materiale. Den blir sammenlignet med en liste over tidligere registrerte ordformer, i alt nesten 2 millioner ordformer ifølge HIT-senterets søkeside. De ordformene som ikke er registrert fra før, lagres i en egen liste, «Nye» bokmålsord siste døgn. Det er denne lista vi ved vår seksjon har fått anledning til å gå igjennom for å registrere nye ord som kan være interessante, særlig med tanke på framtidige ordbokutgivelser.

Ved en automatisk sammenligning blir alle slags former som ikke gjenkjennes, registrert som nyord, f.eks. sjeldne geografiske navn, alle slags firmanavn og tilfeldige sammensetninger, som jo kan dannes ad hoc etter som en har bruk for dem, og kanskje bare blir brukt denne ene gangen. Trykkfeil er også opphav til mange «nyord» som havner på lista. Selv om orddanninger av typen Adventures-sjefen, Boston-presten, eksamensangst-gruppene, flymatforhandlinger, premieretallene, puppestrid, sjemmes (stavefeil for skjemmes) og strømpebukselignende i visse sammenhenger kan være interessante nok, har de ikke så stor interesse når en primært er ute etter nyord som fortjener en plass i ordboka.

En opptelling av «dagens nyord» på fire tilfeldige dager i fjor gav til sammen ca. 4700 ordformer. Av disse ble 100 vurdert som interessante med tanke på nye ordbokutgaver. Det gir en fangst på noe over 2 %. Vi begynte med denne innsamlingen som en prøveordning i slutten av november i 2000, og vi har funnet den såpass nyttig at vi har bestemt oss for å fortsette med den inntil videre. Et raskt overslag viser at per i dag (slutten av april 2002) har vi registrert ca. 4000 ord sammen med ett eller flere eksempel på bruken av hvert ord.

En alvorlig mangel ved en slik maskinell innsamling er at vi bare mer eller mindre tilfeldig er i stand til å fange opp ny fraseologi og nye betydninger av eksisterende ord. Men noe kan en finne blant annet ved hjelp av sammensetninger som blir registrert som nyord. Når en sammensetning som bøttekottmøte dukker opp, får en jo mistanke om at førsteleddet ikke er brukt i sin egentlige betydning, noe konteksten ordet forekommer i, bekrefter.

Et søk på bøttekott i hele materialet gir mange treff på at ordet brukes i betydningen ’lukket rom’ og beskriver noe som foregår eller blir bestemt i det skjulte, uten åpen debatt. I tillegg får en flere sammensetninger som bøttekottdemokrati, bøttekottpolitikk og bøttekottstrategi. Denne bruken av bøttekott er ikke registrert i ordbøkene, og om den fortjener det, er det i alle fall grunn til å vurdere.

Et annet eksempel er sammensetninger som flaggegrense, flaggemelding, flaggeplikt. Det skal ikke så stor ordkunnskap til for å skjønne at det ikke er den egentlige betydningen av flagge som forekommer her, og en blir oppmerksom på at flagge brukes i forbindelse med aksjehandel (’gi melding til børsen om at en eier mer enn 10 % av aksjene i et selskap’). Og søker en først på flagge, kommer eksempler som flagge et standpunkt o.l. fram. Men for å kunne registrere nye betydninger og ny fraseologi mer systematisk trenger vi mer avanserte søkeprogram.

At materialet i hovedsak består av avistekster, og at skjønnlitteratur og andre typer tekster stort sett mangler, er et minus sett fra et leksikografisk ståsted.

Derimot må en se det som et pluss sammenlignet med manuell ekserpering at datamaskinen behandler alle typer tekster like grundig og systematisk. Det er blitt hevdet at den gamle måten kunne bli noe tilfeldig og farget av ekserptorenes personlige interesser.

Ordbøkene er også blitt kritisert for blant annet å ha neglisjert såkalte kvinneord. Kanskje kan det bli bedre ved maskinell registrering? I alle fall har ord som quilte, quilting, perlebroderi og perlebrodert dukket opp på lista over «nye» bokmålsord sammen med en rekke navn på fremmede matretter, eksotiske frukter o.l. som brukes i dagens restaurant- og matspalter.

Noen former kan også ha interesse med tanke på normering. Tanums store rettskrivningsordbok (1996) fører f.eks. opp mafiøs som adjektiv til mafia. I vårt materiale dukker også formen mafios opp, og et søk i hele avismaterialet gir flere treff på denne formen enn på mafiøs. Forslaget om skrivemåten pøbb ved siden av pub ble i sin tid forkastet av årsmøtet i Norsk språkråd. Da er det interessant å registrere at pøbb dukker opp i eksempler fra både Adresseavisen, Stavanger Aftenblad og Nordlys.

Når vi samler inn nyord ved hjelp av datamaskinens klippe-og-lime-funksjon, sparer vi en god del av de ressursene som innsamlingen på gamlemåten krevde. Det gjelder både ved innskriving, kontroll og korrekturlesing av det innsamlede materialet.

 

-- Boye Wangensteen er amanuensis ved avdeling for leksikografi ved Universitetet i Oslo.

Del denne siden

Del på Facebook Del på Twitter