En infrastruktur for språkforskning

Etter årtusenskiftet begynte teknologer og forskere å tro på muligheten av e-vitenskap, det vil si en digital arbeidsflyt i forskning. Flaskehalser i tilgang til digitale språkressurser må fjernes for at dette skal kunne realiseres.

AV KOENRAAD DE SMEDT

For de fleste humanistiske fag er digitalt språkmateriale et stort fremskritt. Gjennom elektroniske utgivelser, for eksempel Wittgensteinarkivet eller Arkiv for nordiske middelaldertekster, kan man søke i tekster og analysere og fremstille dem på nye måter. Store tekst- og talekorpus, gjerne med kommentarer om ordkategori og andre opplysninger, har blitt viktige kilder for lingvistikk og språkstudier. Oslokorpuset av taggede norske tekster, for eksempel, gjør det mulig å søke på ord og ordkategorier i kontekst og har blitt en kilde for mange studier. ’Talesøk’ (tidligere ’Norsk talemålskorpus’) gjør det mulig å søke etter språkstrukturelle trekk i innspillinger av norsk talemål. ’Norsk aviskorpus’ er et monitorkorpus som gjør det mulig å finne ut f.eks. i hvilken avis og hvilken dag et bestemt ord først ble tatt i bruk.

Det finnes i dag enorme mengder av analogt og digitalt språkmateriale og mange digitaliseringsprosjekter. Den digitale lagringskapasiteten fortsetter å øke i raskt tempo. Likevel er det anslått at 80 % av materialet står i fare for å gå tapt eller bli ødelagt. En av utfordringene er at primære forskningsdata for språk er svært heterogene og består av alle mulige former for tekst, audiovisuelle opptak (lyd og bilde) og eksperimentelle data (reaksjonstider, feilrater, EEG, fMRI, registrering av øyebevegelser osv.). Dessuten finnes det et mangfold av sekundære språkrelaterte kunnskapskilder, for eksempel ordbøker, tesauruser, dialektatlas, grammatikker, termlister, osv. og ymse verktøy for tekst-til-tale og tale-til-tekst, maskinoversettelse, tagging og annen prosessering.

Forgjengelig materiale

Mange språklige eller språkrelaterte kilder finnes i analog form, på papir (bl.a. seddelarkiver), magnetbånd eller celluloid, som lett kan bli ødelagt, og som bare er fysisk tilgjengelige ett sted. Digitalisering av analoge data er meget kostbart og begrenser seg derfor ofte til faksimile (f.eks. Norsk dialektatlas), som ikke tillater full utnyttelse gjennom søk, indeksering og videre prosessering. Men digitale formater og databærere kan også være forgjengelige. Materiale som tidlig ble produsert i digital form, har ofte ikke-standardiserte formater og er lagret på gamle databærere (f.eks. disketter) som ikke er holdbare og ikke lenger er støttet av dagens systemer. Noen av disse materialsamlingene er heller ikke optimalt kodet med tanke på videre prosessering. For eksempel har store ordbøker blitt skrevet i gamle tekstbehandlingsprogrammer på en slik måte at materialet mangler en eksplisitt dokumentstruktur, og muligheter for søk og annet bruk er begrenset.

Dessuten er dokumentasjon, kommentering og katalogisering av språkmateriale ofte mangelfull eller ikke-eksisterende. Mye materiale mangler detaljerte metadata (dvs. opplysninger om materialets opprinnelse osv.), er rettighetsbelagt eller kan av hensyn til personvernet vanskelig distribueres. Tilgang til materialet krever i noen tilfeller spesialiserte, plattformavhengige programmer og nedlasting og installering etter avtale, mens annet materiale kun er søkbart på nettet gjennom et grensesnitt som kan føles som en tvangstrøye. Få institusjoner har forpliktet seg til å holde materiale som de har produsert, ved like gjennom sikker lagring og overflytting til nye lagringsmedier. Endelig mangler det også kataloger over språkmateriale, slik at forskere ofte ikke engang vet om og hvor bestemte typer materiale finnes.

Kostbare kostnadsbesparende tiltak

Alle disse faktorene bidrar til at mye språkmateriale er i faresonen. Behovet for bevaring av data, tilgjengeliggjøring og mulighet for videre prosessering er akutt, men slike tiltak er dessverre meget kostbare. En digital masterkopi av et videoopptak er f.eks. tolv ganger dyrere enn en konvensjonell kopi. Likeså er digital transkripsjon og koding av f.eks. en gammel ordbok mye dyrere enn faksimile. Forskningsmiljøene har så vidt råd til å oppbevare sine forskningsresultater i den formen de er produsert, men står uten midler til selv å bygge opp infrastrukturer for kvalitetssikring, vedlikehold og spredning. Paradoksalt nok kan denne situasjonen føre til økte utgifter fordi forskningsresultater som går tapt, eller som ikke er tilstrekkelig tilgjengelige eller dokumentert, må gjenoppbygges til stadig større kostnader.

Det siste tiåret har bevisstheten om at det er nødvendig med langtidsarkivering, katalogisering og tilgjengeliggjøring vist seg i alle vitenskapsgrener, også i språkvitenskapen. Gjennomsnittlig dør det ett språk annenhver uke. I 2000 besluttet Volkswagenstiftelsen å bevilge betydelige summer til DOBES, et forskningsprogram for dokumentasjon og langtidsarkivering av utrydningstruede språk. I 2004 startet Max Planck Digital Library, som tilbyr lagring, tekniske løsninger, kommunikasjon og digital arbeidsflyt til sine forskere, med en oppbyggingskostnad på 7 millioner euro.

Et europeisk initiativ

I 2006 ble det første ESFRI-veikartet publisert av European Strategy Forum for Research Infrastructures. På dette veikartet var språk representert gjennom Common Language Resources and Technology Infrastructure (CLARIN), et paneuropeisk initiativ for oppbygging av en infrastruktur som skal betjene alle humanistiske fag som er avhengige av språkrelaterte data og teknologi. Prosjektet startet i 2008 som et samarbeid mellom 32 institusjoner fra 22 land, deriblant Norge, med en beskjeden støtte fra Europakommisjonen. Prosjektet har åpnet for bred deltagelse, og hittil har 150 institusjoner knyttet seg til CLARIN-nettverket som medlemmer.

CLARINs visjon er å øke tilgjengeligheten av språkmateriale drastisk. Et eksempel kan illustrere dette. La oss si at en forsker vil gjøre en semantisk analyse av alle kontekster for ordet entusiasme (inkludert bøyningsformer) i skjønnlitteratur skrevet av kvinner mellom 1900 og 1940. I dag er en slik undersøkelse mulig ved hjelp av ymse korpus- og språkteknologiprogrammer, men dette krever at man først finner ut hvem som har tekstkildene, at man så ber om tillatelse til å bruke dem, eventuelt ber om brukernavn og passord, laster ned data, eventuelt skanner tekst, laster ned programmer for videre prosessering, konverterer data fra ulike kilder til et felles format som programmet krever, osv. For de fleste forskere innen språkfag, historiefaget eller andre humanistiske disipliner er en slik arbeidsflyt uoverkommelig komplisert og tidkrevende, og i tillegg er faren stor for å støte på tekniske begrensninger eller kompatibilitetsproblemer.

Tjenesteorientert arkitektur

I fremtiden skal det være mulig for en forsker å logge seg inn med sitt lokale brukernavn og passord for å komme inn på alle sentre som har sluttet seg sammen i CLARIN. En slik sammenslutning for identifisering og autorisering i Europa finnes allerede i Eduroam. Relevante data skal kunne finnes gjennom katalogisering og kraftige søkemuligheter på tvers av institusjoner. Det skal ikke være nødvendig å laste ned data eller programmer, men man skal kunne filtrere, konvertere og prosessere data i en såkalt tjenesteorientert arkitektur som tilpasser seg brukerbehov og informasjonens natur, heller enn omvendt. Forskeren skal kunne søke i en stor europeisk katalog etter tekster som tilfredsstiller kriteriene. Man skal kunne søke og filtrere alt relevant materiale samtidig, selv om det er kodet på forskjellige måter.

Selv om CLARIN forutsetter en rekke språkteknologiske systemer, er prosjektet ikke bare rettet mot språkteknologi, men mot nye behov for e-vitenskap i alle humanistiske fag. Hovedmålet med CLARIN er ikke å produsere nye språkressurser, men å sikre dem for fremtiden og gjøre dem bredt tilgjengelige for forskere i en stabil og pålitelig infrastruktur. For at det skal være mulig å finne materiale og koble sammen ulikt materiale og verktøy, er det viktig at man får til en samordning av standarder, en felles katalogisering og en avtale om en overordnet arkitektur for systemet og ikke minst forpliktende samarbeidsavtaler over lang tid.

I dag er mye av dette fremdeles en visjon. CLARIN er i en forberedende fase og holder på med utredninger om standardisering, teknisk infrastruktur, brukerbehov, rettigheter, bruksmodeller, og samarbeidsplaner for oppbyggingsfasen, som skal starte etter 2010. Om og hvordan en europeisk infrastruktur blir realisert, er fortsatt usikkert. Kostnadene er anslått til ca. 145 millioner euro per år, basert på et nettverk bestående av 10 til 20 sentre.

Forskerutdanning er viktig

Oppbygging av en helt ny forskningsinfrastruktur er avhengig av god kunnskap, så forskerutdanning er en vesentlig forberedende oppgave. I kjølvannet av CLARIN ble det tatt initiativ til et stort europeisk forskerutdanningsnettverk under navnet Common Language Resources and their Applications (CLARA). Dette nettverket av ti ledende europeiske institusjoner får støtte fra Europakommisjonen under Marie Curie Actions.

CLARA retter seg mot forskere i startfasen og tilbyr vitenskapelig trening i en internasjonal sammenheng innenfor en rekke metoder og teknikker. Prosjektets innhold er bl.a. konservering av språkdata, standardisering av koding og metadata for språk, leksikalsk semantisk modellering, tospråklige korpus, semantisk korpusannotasjon, automatisert leksikografi, informasjonsuttrekking, termbaser, multimedier og multimodale ressurser og teknologier, datastøttet læring, korrekturlesing, maskinoversettelse, grammatikker og trebanker, som er korpus med syntaktisk informasjon. CLARA kommer til å tilby en rekke internasjonale forskerkurs også i Norge.

Nasjonale forpliktelser

Språkdata er ikke som andre data. Språkdata er både heterogene og tvetydige, slik at de krever en innholdsavhengig og kontekstavhengig tolkning allerede i kodingen av primærdata. Bare av den grunn er det naturlig at CLARIN ikke blir sentralisert, men blir en distribuert infrastruktur med 10 til 20 sentre som har ekspertise på ulike typer materiale og oppgaver.

Det er sannsynlig at realisering av en infrastruktur for språk i stor grad er avhengig av nasjonal finansiering i tillegg til europeisk støtte. Landene må bære sin del av en felles infrastruktur, men produksjon av selve innholdet er en nasjonal oppgave. I 2009 ble det i Norge satt i gang et program med sikte på å bygge opp forskningsinfrastrukturer som kan gi gode muligheter til å bygge opp norske forskningsressurser for språk, teknisk infrastruktur og andre støttetiltak. Hittil har ikke norske utlysninger i forbindelse med infrastruktur stilt krav om at nasjonale prosjekter skal passe inn i en europeisk infrastruktur. En slik innpassing kan likevel ha potensial til en betraktelig økning i effektivisering, oppskalering og utnyttelse.

-- Koenraad De Smedt er professor i datalingvistikk ved Universitetet i Bergen.

Del denne siden