Lei av kjedeleg referatskriving? Sjå her!

No image

(8.4.24) Ny teknologi kan hjelpe deg med både referatskriving, diktat, undertekstar og intervju. TV 2 Skole og politiet har testa teknologien og har så langt gode erfaringar. 

AV SIGRID SØRUMGÅRD BOTHEIM

I 2009 starta TV 2 ei satsing på nyheiter for barn. Etter kvart har dette utvikla seg til å bli Elevkanalen, ei plattform der det finst både nyheiter, fagstoff og undervisningsopplegg for skuleelevar, utskild som eige heileigd dotterselskap av TV 2, TV 2 Skole AS.

– Mykje av stoffet som ligg på Elevkanalen, er videoar, og dei treng undertekstar. Nå tekstar vi alt fortløpande. Vi har også eit stort arkiv som vi har teksta med den nye teknologien, seier Anne Cathrine Gotaas, redaksjonssjef i TV 2 Skole.

TV 2 Skole har med andre ord stort behov for transkribering av tale til tekst, og kanalen har vore ein perfekt prøvekanin for utviklarane i AI-laben ved Nasjonalbiblioteket. Saman med fleire andre verksemder har TV 2 Skole delteke i eit eittårig pilotprosjekt for å teste språkmodellen NB Whisper, som konverterer norsk tale til tekst.

Teknologi som forstår alle dialektar

For å få tale-til-tekst-teknologi til å fungere på norsk har Nasjonalbiblioteket trena modellen til å forstå alle dialektar, og han transkriberer til både nynorsk og bokmål. Nasjonalbiblioteket utviklar dermed teknologi som er i tråd med den norske språkpolitikken.

Marie Røsok | Foto: Nasjonalbiblioteket– Denne teknologien kan mellom anna brukast til å lage undertekstar på TV, transkribere radioprogram eller transkribere avhøyr, intervju og diktat. Ulike versjonar av modellen gjev også litt ulikt resultat. Ein kan få både heilt ordrett attgjeving og semantisk attgjeving, slik vi kjenner frå undertekstar på TV. Det vil seia at teknologien ikkje berre transkriberer frå lyd til tekst, men han transkriberer også meiningsinnhaldet, seier Marie Røsok ved Språkbanken på Nasjonalbiblioteket.

Røsok fortel at det er mange språklege omsyn å ta når ein utviklar språkteknologi. I Noreg er dialektvariasjonen stor, og det kan vera vanskeleg å avgjera korleis ein skal transkribere ulike dialektar. Og dersom ein vil at transkripsjonen skal vera på normert nynorsk eller bokmål, må ein trena modellen med normerte ortografiske ord.

– Vi må handtere forholdet mellom det talte norske språket og det skriftlege, og vi har arbeidd mykje med treningssetta for at dei skal bli så gode som mogleg for dei som skal utvikle modellar.

Nynorsk og bokmål til same tid

Sidan Elevkanalen utviklar læremiddel til bruk i skulen, skal alt innhald vera tilgjengeleg både på bokmål og nynorsk. Anne Cathrine Gotaas forklarer at dei brukar både NB Whisper og Nynorskroboten for å tekste videoar.

Anne Cathrine Gotaas | Foto: TV2 Skole– På Elevkanalen publiserer vi små nyheitssendingar kvar morgon. Vi plukkar ut dei viktigaste sakene frå nyheitssendingane kvelden før, klipper og set dei saman til nye innslag. Vi brukar NB Whisper til å transkribere til bokmål, så les vi korrektur på transkripsjonen. Etterpå brukar vi Nynorskroboten for å omsetja til nynorsk. Også her blir det lese korrektur. Slik får vi undertekstar både på bokmål og nynorsk til same tid.

Korleis har det vore å teste ut Whisper-teknologien?

– Det har fungert bra! Men det har vore nokre utfordringar. Whisper har dikta opp ting, og han kunne seia «takk for i dag» fjorten gonger etter kvarandre. Men totalt sett har vi spara tid. I starten sa tekstarane at det tok for lang tid å bruke verktøyet, men nå har det vorte så bra at det går raskare å rette opp feila enn å transkribere sjølv.

Normvariasjon og avlytting

Språkrådet vil at norsk språkteknologi skal ta omsyn til den store normvariasjonen i bokmål og nynorsk, slik at teknologien ikkje skal gjera språklege val på vegner av språkbrukarane. I det lange løpet kan teknologien føre til at dei mest brukte formene blir reproduserte av maskinspråket, og at språket blir meir einsretta. Røsok seier at det går an å laga verktøy som motverkar dette.

– Det er fullt mogleg å laga verktøy der sluttbrukaren kan gjera mange formval for transkripsjonen.

Finst det motførestillingar mot denne teknologien?

– Ein kan lett avlytte folk og samle inn store data om kva folk har sagt. I kor stor grad det vil bli eit problem, veit eg ikkje. Folk har kunna avlytta oss før òg, og det vil alltids finnast regelverk som regulerer dette. Teknologien i seg sjølv er ikkje «snill» eller «slem». Det er nok eit mykje større problem med KI som etterliknar stemma til nokon, eller som lagar falske videoar av folk, seier Røsok.

Stort potensial for språkteknologi i politiet

Politiet utfører ei rad oppgåver som krev mykje språkarbeid og dokumentasjon, mellom anna tolketenester, diktering frå åstader og transkribering frå rettssaker og avhøyr. I avhøyrsprosjektet AI4INTERVIEWS har politiet løyve til å prøve tale-til-tekst i rettssaker og utvalde avhøyr med reelle data. Politiet søkjer nå om fleire løyve. Innføring av ny teknologi må gjennomførast på ein trygg og god måte, difor er juridisk ekspertise kopla tett på prosjektet.

– Potensialet for tale-til-tekst-teknologi er enormt i politiet. Akkurat nå ynskjer vi å få teste ut teknologien med reelle politidata når kriminalteknikarar er ute på ein åstad. Ved å bruke hovudkamera som er styrt ved talekommandoar, kan dei strøyme direkte frå åstaden og attende til politiet eller andre spesialistar som dei får råd frå. Alt som blir sagt her, treng vi å ha skriftleg etterpå. Dette er eit spennande forsøk, og Noreg er blant dei fyrste landa i verda som prøver denne metoden, seier Bente Skattør.

Skattør jobbar med KI og innovasjon i Oslo politidistrikt saman med Thomas Beka. Beka har mellom anna utvikla ein intern nettstad med ulike verktøy som han kallar språktektorget. Sidan 2023 har Skattør og Beka arbeidd strategisk med store språkmodellar. Dei har søkt om løyve til å ta i bruk teknologien i faktiske rettssaker, og dei har testa bruk av han i avhøyr. Beka forklarar:

– Eit avhøyr kjem som lyd eller video. Så køyrer vi materialet gjennom NB Whisper før vi går gjennom og korrigerer teksten. Seinare kan vi kople transkripsjonen saman med annan språkteknologi, slik at vi får samandrag, omsettingar eller faktasjekkar. Det har vore kjempespennande å teste NB Whisper. Språkmodellane er på eit heilt anna nivå nå enn for eit par år sidan. Språkbanken har vore flink til å involvere oss og bruke tilbakemeldingane våre. Det har vore eit godt og lærerikt samarbeid.

Kan gje meir tid til etterforsking

Bente Skattør seier at det ofte er etterforskarane som transkriberer sjølve, slik at tekst-til-tale-teknologien frigjer mykje tid til sjølve etterforskinga.

– I politiet er den fyrste timen av ei etterforsking spesielt viktig: Jo tidlegare vi får riktig informasjon, jo større er sjansen for oppklaring og eit godt resultat. Kunstig intelligens kan hjelpe oss med å skaffe overblikk, betre rettstryggleiken på åstaden og levere rettsmedisinske rapportar raskt. Sidan det er svært arbeidskrevjande å transkribere avhøyr, kjøper politiet inn tenester. Men det er ingen som mistar jobben sin i politiet på grunn av kunstig intelligens, tvert imot.

Vil tale-til-tekst-teknologien erstatte manuelle oppgåver som eksisterer i dag, eller vil han også endre sjølve arbeidsmetodane?

– I fyrste omgang effektiviserer vi eksisterande oppgåver, men på sikt trur eg vi kjem til å få nye måtar å jobbe på. For eksempel kan ein ta meir i bruk diktering eller talekommandoar i det operative politiet. Når vi har greidd å skapa aksept og tryggleik internt, trur eg at teknologien kan gje nye moglegheiter. Neste år skal vi arbeide meir med å bruke teknologien til å gjera analysar og finne gode søkjekriterium, seier Skattør.

Det offentlege kan bidra

For at teknologien skal bli så god som mogleg, ynskjer Språkbanken å få tilgang til data frå offentlege verksemder. Kva type data Språkbanken ser etter, kan variere, seier Marie Røsok.

– Dataa må ha ein viss storleik. Har dei ikkje det, får ein ikkje trena bra nok modellar. Dei dataa som vi deler i Språkbanken, må kunna delast heilt ope utan omsyn til personvern eller opphavsrettar. Vi er interesserte i lyddata som er transkriberte eller har undertekst, og vi er interesserte i tekstdata som parallelle tekstar mellom bokmål og nynorsk eller mellom norsk og andre språk. Alt dette kan brukast i omsettingsteknologi. Vi vurderer raskt kva som er nyttig, så vi oppmodar alle som trur dei har noko nyttig å dele, om å ta kontakt.

Etterspør det offentlege denne teknologien?

– Ja! Krav til universell utforming gjer at video og lyd skal vera teksta. Og i offentleg sektor er det mykje som skal dokumenterast, for eksempel skal det vera referat frå alt som blir sagt i stortingssalen. NRK har også eit kjempestort arkiv som blir lettare å søkje i og meir tilgjengeleg om det blir transkribert.

Kva er stoda for norsk tale-til-tekst-teknologi i dag?

– Språkbanken har nettopp undersøkt dette. Hovudsakleg ser vi at NB Whisper har dei beste taleattkjenningsmodellane, dei får mykje høgare skår på kvaliteten enn andre modellar har fått tidlegare. Nynorskmodellen til NB Whisper gjev også mykje betre taleattkjenning til nynorsk enn før. Modellane er ikkje feilfrie, men dei er mykje betre enn tidlegare modellar.

FAKTA

NB Whisper

  • NB Whisper er ein KI-modell som kan konvertere tale til tekst. Teksten som blir produsert, er normalisert norsk bokmål eller nynorsk. Denne teksten kan så brukast til mange ulike føremål.
  • NB Whisper er trena på innhald i Nasjonalbiblioteket si digitale samling og på språkressursar frå Språkbanken ved Nasjonalbiblioteket.
  • NB Whisper er bygd på Whisper frå OpenAI.
  • Modellen er trena med ressursar frå Googles TPU Research Cloud.
  • NB Whisper blir no tilgjengeleg for uttesting i ei lita utgåve. Dermed kan ein bruke programmet på vanlege datamaskinar. Seinare vil det kome større utgåver som skal fungere enda betre.

Kjelde: Nasjonalbiblioteket

Språkbanken

Språkbanken ved Nasjonalbiblioteket er den nasjonale infrastrukturen for språkteknologi i Noreg. Språkbanken tilbyr datasett som alle verksemder kan bruke fritt når dei utviklar språkteknologi. Har du data du trur kan vera til nytte for Språkbanken? Ta kontakt på sprakbanken@nb.no.

Status for norsk talegjenkjenning

Les rapporten «Status for norsk talegjenkjenning» (2024) frå Nasjonalbiblioteket (pdf).

«På oppdrag fra Språkrådet har Språkbanken ved Nasjonalbiblioteket testa hvor gode talegjenkjenningssystemer er til å transkribere norsk tale til bokmål og nynorsk (per 2024). Dialekter og spontan tale var vektlagt i utviklingen av testsettene.»

Toppillustrasjon: elevkanalen.no/fag
Foto av Marie Røsok: Nasjonalbiblioteket
Foto av Anne Cathrine Gotaas: TV 2 Skole

Del denne siden

Del på Facebook Del på Twitter

Publisert:08.04.2024 | Oppdatert:10.04.2024