Grunnlagsressursar for språkteknologi

Skal språkteknologiske løysingar verke på norsk, må dei fôrast med språkdata.

Skal eit rettskrivingsprogram verke, må programvara kjenne norsk rettskriving (for både bokmål og nynorsk). Skal taleattkjenning verke på norske dialektar, må taleteknologien fôrast med dialektdata.

Slike språkdata kallar vi grunnlagsressursar for språkteknologi. Dei viktigaste typane er

  • digitalisert tekst, (einspråklege tekstar eller parallelltekstar med omsetjing til eitt eller fleire andre språk)
  • digitalisert tale
  • ordlister, termlister og omgrepsapparat

I tillegg trengst det programvare som samlar inn dataa og legg dei til rette for språkteknologiske føremål.

Grunnlagsressursar kan vere dyre å produsere og vanskelege å finne, og ein kan støyte på juridiske hinder mot å bruke dei fritt til utvikling av språkteknologi. Språkrådet arbeider for utvikling, innsamling, tilgjengeleggjering og ombruk av grunnlagsressursar.

Kan verksemda di bidra?

Mange språkteknologiske løysingar treng områdespesifikke data for å fungere skikkeleg.

Maskinomsetjing av eit sjøfartsdokument føreset tilgang til både maritime fagordlister og tidlegare omsetjingar av sjøfartstekst. Ein praterobot for skatteetaten må kjenne til både omgrepsapparatet i etaten og dei mindre presise orda som brukarane av roboten kan tenkjast å nytte i daglegtalen.

Kvar sektor må altså sørgje for grunnlagsressursar frå sitt fagområde. Ta kontakt med Språkrådet om du trur verksemda di har områdespesifikke språkdata!

Del denne siden

Del på Facebook Del på Twitter