Data som duger på norsk

Det offentlige Norge forvalter store mengder verdifulle data som kan brukes til å utvikle teknologi på norsk. – Dette er skattefinansierte ressurser, og staten har et moralsk ansvar for å gjøre dem fritt tilgjengelige for alle, mener mannen bak yr.no, Erik Bolstad.

AV LARS IVAR NORDAL

Taleteknologi og intelligente personlige assistenter er blitt snakkiser i dagens teknologiutvikling. Teknologiekspertene tror at vi om få år vil bruke stemmen til å styre dingser og maskiner rundt oss. Faktisk er mye av teknologien allerede tilgjengelig: Både Google og Amazon har utvikla såkalte talestyrte personlige assistenter som kan hjelpe oss med alt fra å bestille pizza til å dimme lyset i stua. I Norge har selskapet Max Manus utvikla dikteringsroboten Tuva, som gjør det mulig å «skrive med stemmen» og å styre datamaskiner ved hjelp av tale. De potensielle gevinstene er enorme; faktisk kan vi produsere tekst opptil fire ganger raskere med stemmen enn med tastatur. Dessuten kan slik talestyring hjelpe arbeidsuføre med å komme tilbake i jobb.

– Det virker åpenbart at vi kommer til å snakke mye med ting i framtida. Men dersom det bare er jeg med min østlandsdialekt som blir forstått, da er det noen som har svikta. Dette handler i svært stor grad om tilgang til og utvikling av riktig datagrunnlag, sier Erik Bolstad.

Han er sjefredaktør for Store norske leksikon og en av dem som var med på å utvikle værtjenesten yr.no. Tjenesten ble en kjempesuksess blant annet fordi den ga fri tilgang til værdata som brukerne tidligere hadde måttet betale for.

– Den gangen da Meteorologisk institutt tok penger for disse dataene, var det ikke så mange som var interessert i dem. Instituttet tjente bitte litt penger på et produkt som det var brukt enorme mengder skattepenger på. Men da man slutta å ta betalt, begynte folk å bruke dataene på måter man ikke hadde forestilt seg. Mitt favoritteksempel er kioskkjeden Deli de Luca, som begynte å koble værdataene til bemanningssystemet sitt. Når det var fint vær om sommeren, visste kioskkjeden at folk dro til kioskene i nærheten av parker, men når det regna, dro de til kjøpesentrene. Så tilpassa Deli de Luca bemanningen etter dette. Dermed blir kundene betjent litt raskere, de ansatte slipper å løpe vettet av seg, og Deli de Luca tjener litt mer penger. Det hadde aldri skjedd dersom man måtte betale for disse dataene, tror Bolstad.

Han mener at flere statsorganer burde følge Meteorologisk institutts eksempel.

– Mange som eier data nå, legger bevisst og ubevisst kjelker i veien for at dataene skal kunne brukes av andre. Jeg mener det er en helt sentral oppgave for staten å sikre allmenn tilgang til disse kildene. Det vil si: ingen registrering, ikke noe krav om å legge igjen telefonnummer og tilstrekkelig informasjon om ressursene.

Selvforsterkende mekanismer

I dag er det målloven som legger føringer for språkbruken i staten. Den stiller blant annet krav om at tjenester skal lages på nynorsk og bokmål til samme tid. Når taleteknologiske løsninger i statsorganene utvikles for begge målformer samtidig, og disse tjenestene blir gjort tilgjengelige for gjenbruk, blir det lettere for andre aktører å lage nye løsninger på begge målformer. Det samme gjelder for ressurser på norsk tegnspråk og de nasjonale minoritetsspråkene. På disse områdene er det i dag svært lite materiale tilgjengelig for utvikling av språkteknologi.

– Det viktige i denne sammenhengen er at det blir stilt krav i innkjøpsprosessene. Statlige organer må ta språklig ansvar – staten bør ikke kjøpe inn systemer som ikke støtter ulike språk. Ta iPhone som et eksempel. Apple kunne ha lagd operativsystemet iOS på nynorsk, men det har de valgt å ikke gjøre. Da mener jeg staten burde ha brukt innkjøpsmakta si og ikke kjøpt inn iPhoner før iOS fins på både nynorsk og bokmål. Staten bruker en masse penger på slike innkjøp, og da må man også kunne stille krav, både til språk og til fri deling av data.

Lite land langt framme

Mange andre land står overfor lignende utfordringer. De store kommersielle aktørene prioriterer de store språkene først, mens mindre språk gjerne havner bakerst i køen. Like fullt er det noen som får det til. Et eksempel er Latvia. Latvisk er morsmål for knapt 1,5 millioner mennesker. Likevel er det blitt utvikla velfungerende språkteknologi,takket være aktiv innsats fra myndighetenes side.

– Vi har fått staten og regjeringa med på laget og fått dem til å forstå hvilke utfordringer vi står overfor. Det tror jeg har vært avgjørende, sier Jānis Ziediņš, som er prosjektansvarlig for språkteknologi ved det statlige senteret for kulturinformasjonssystemer i Latvia.

En av suksesshistoriene i det latviske arbeidet er maskinoversetteren hugo.lv. Den er fritt tilgjengelig for alle, og den gir langt bedre og nøyaktigere oversettelser til og fra latvisk enn det en tjeneste som Google translate gjør. Årsaken er at maskinoversetteren er blitt mata med språkdata fra spesifikke fagfelter, for eksempel juss. – Dette hadde ikke vært mulig dersom statlige etater og organer ikke hadde villet dele sine oversettelser og språkdata, forteller Ziediņš.

– Statsministeren har personlig engasjert seg for å få til en lovendring som vil føre til at alle statlige oversettelser blir tilgjengeliggjort for utvikling av språkteknologi. Men fremdeles er det mye å gjøre. Dette er en jobb man aldri blir helt ferdig med.

Del denne siden