Begreper beriker språkteknologien

No image

(14.6.19) I digitaliseringsarbeidet definerer nå flere virksomheter begrepene sine. Om arbeidet gjøres skikkelig, kan begrepene gjenbrukes for å utvikle nye språkteknologiske produkter.

Innlegg i Computerworld
Av Åse Wetås, direktør i Språkrådet

Forestill deg at legen i Portugal kan få tilgang til og forstå pasientjournalen din om du skulle bli syk på ferie. Eller at du kan få brev og dokumenter på norsk fra spanske myndigheter om feriehuset i Spania. Tenk deg at du kan klage på hotellet du ferierte på i Italia, eller mobiltelefonen du kjøpte i England – på norsk. Eller se for deg at du her hjemme kan få svar fra skatteetaten når som helst på døgnet – både på bokmål og nynorsk.

Takket være kunstig intelligens og språkteknologisk utvikling er ikke dette en utopi. Det forutsetter imidlertid at offentlige virksomheter som i forbindelse med digitaliseringsarbeidet definerer fagbegrepene de bruker, passer på å registrere fagtermene på nynorsk og engelsk, og ikke bare på bokmål.

Nynorsk i Napoli og Nottingham

Allerede i dag kan du faktisk klage på en tjeneste du har betalt for i Napoli, eller et produkt du har kjøpt i Nottingham, på ditt eget morsmål. Gjennom nettportalen til Forbruker Europa blir klagen oversatt til italiensk eller engelsk for å kunne bli behandlet på nasjonalspråket, og svaret blir oversatt til norsk.

Jeg har tidligere skrevet om utfordringene ved automatisk oversettelse. Feil i oversettelser kan få juridiske, økonomiske eller helsemessige konsekvenser. For å hindre det må oversettelsesprogrammene være nøyaktige nok. Da kan de ikke oversette heart failure med hjertefeil, som de gjør nå. Riktig term er hjertesvikt. De må vite at engelsk article i juridiske sammenhenger ikke kan oversettes til artikkel, men at den korrekte oversettelsen er paragraf. Hvis de skal hjelpe oss i skattespørsmål over landegrensene, må de vite hvordan pantedokument og skattepliktig skal oversettes til engelsk eller andre språk. Dessuten må de takle begge målformene våre.

Skal programmene lære å oversette fagtermer presist nok – enten det dreier seg om diagnoser og medisiner, boliger og skatt eller hotelltjenester og teknologiprodukter – må de mates med kvalitetssikrede flerspråklige begrepslister.

Begreper i det digitale økosystemet

Den felles begrepskatalogen for staten, som er omtalt i forrige utgave av Computerworld, kan få en nøkkelrolle i framtida. Den samler begrepsdefinisjoner og fagtermer fra ulike virksomheter og gjør dem tilgjengelige for alle. Det vil forhåpentligvis også helsesektorens begrepskataloger gjøre.

Når offentlige virksomheter nå er i gang med å lage begrepsdefinisjoner, skal de registrere fagtermene på begge målformer. Dersom virksomhetene legger til engelske termer, kan begrepskatalogene bli en skattkiste for utviklere av språkteknologi. De kan hente ut begrepslistene fra katalogene og mate dem inn i de automatiske oversettelsesprogrammene. Det gir en enorm gjenbruksgevinst.

I utgangspunktet skal disse begrepene være metadata for datasettene som offentlige virksomheter forvalter. Begrepene gir altså informasjon om dataene ved å fortelle hva de betyr. Men for språkteknologer er begrepene data som kan gjenvinnes. Begrepskatalogene inngår dermed i et digitalt økosystem der vi kan høste begreper og bruke dem i et kretsløp for språkteknologi.

Språkteknologi for alle

Begrepslistene er ikke bare til hjelp i automatisk oversettelse mellom norsk og fremmedspråk. De gjør det også mulig å oversette tekster mellom bokmål og nynorsk. Med begrepslister blir det mye lettere for offentlige virksomheter å utforme brev, skjemaer og ikke minst nettekster på begge målformer. Automatisk oversettelse mellom bokmål og nynorsk blir allerede nå testet ut i offentlig sektor. Dette gjør vi for at språkteknologien skal fungere like godt om du er en nynorskbruker fra Møre og Romsdal eller en bokmålsbruker fra Finnmark.

Begrepslister på begge målformer er også et vilkår for at samtaleroboter (chatbots) skal kunne svare skikkelig på spørsmål fra innbyggerne – og ivareta interessene deres i samsvar med offentlig språkpolitikk.

Framtidas språkteknologi byr på mange muligheter, og mange av dem er ennå ukjente. Vi må sørge for at det språklige grunnarbeidet holder høy nok kvalitet til at vi kan gripe de teknologiske mulighetene. Offentlige virksomheter bør derfor se nytten av å gjøre begrepsarbeidet så grundig som råd er – på både bokmål og nynorsk og helst også på engelsk.

Del denne siden

Del på Facebook Del på Twitter