Det latinske alfabetet

Det er jo enkelt og greit hva «det latinske alfabetet» er – kanskje. Det er to ting: bokstavene a b c d e f g h i j k l m n o p q r s t u v w x y z – og den innbyrdes rekkefølgen av dem.

AV HÅVARD HJULSTAD

Men selvsagt er det ikke så enkelt. Hva med æ ø å? Og hva med à á â ä ā ă ą ạ ả ấ ầ ẩ ẫ ậ ắ ằ ẳ ẵ ặ og så videre? Og hva kommer først, a eller A, à eller á?

Det latinske alfabetet

Latin ble skrevet med bokstavene A B C D E F H I L M N O P Q R S T V X (med bare store bokstaver). Tegnet C stammer fra gresk Γ, som på latin ble brukt for både k-lyden og g-lyden. Etter hvert modifiserte de C med en liten hake og fikk G. Og så lånte de etter hvert K, Y og Z fra gresk (for de trengte å skrive greske ord også). Latin skilte ikke i skrift mellom I og J eller mellom U og V. Og W var helt ukjent til langt inn i middelalderen, da VV ble satt sammen for å kunne skrive germanske ord.

Rekkefølgen av tegnene var nok allerede i den klassiske tida ganske fast. I tidlig latin kom ofte Z mellom F og H. Etter hvert festnet det klassisk latinske alfabetet seg slik: A B C D E F G H I K L M N O P Q R S T V X Y Z. Denne rekkefølgen er så godt som totalt blottet for språklig logikk. Det er bare blitt slik i en tilfeldig historisk utvikling.

Hele det latinske tegnsettet
Etter hvert har det latinske alfabetet spredt seg til alle verdensdeler og så godt som alle språkfamilier, selv om det bare er ett av fem offisielle alfabeter i Europa. De andre er det kyrilliske, det greske, det armenske og det georgiske alfabetet. I tillegg kan en også regne med hebraisk, som brukes til å skrive jiddisk, som har offisiell status i flere europeiske land.

De aller fleste språkene har tilpasset tegnsettet til lydene i hvert enkelt språk. Norsk er selvsagt ikke i noen særstilling i så måte. Faktisk er våre «æ-ø-å-problemer» små i forhold til de «problemene» enkelte andre språk har hatt med sine tegnsett. I et historisk perspektiv har disse problemene vært svært begrenset. De startet med innføring av elektronisk databehandling rundt 1960, og nå er problemene for lengst løst – stort sett – egentlig. Du vet det kanskje ikke, men sannsynligvis er det mulig også på din datamaskin å skrive ă ÿ ħ ŀ ő Œ ǿ ǖ ζ α ΰ Ж щ ҝ ẫ א☺ (om behovet skulle melde seg).

Løsningen ligger i den internasjonale standarden som er kjent som Unicode (se http://www.unicode.org/). Standarden dekker de aller fleste tegn som brukes for å gjengi språklig tekst, pluss massevis av «kruseduller» (som ₪ ↔ ☺ ♫). Og den blir stadig utvidet til å omfatte for eksempel lydskrifttegn og tegn som trengs for å registrere historiske dokumenter på vitenskapelig tilfredsstillende måte.

I Unicode er a á à e é è o ó ò ni ulike bokstavtegn, ikke tre bokstavtegn pluss de to diakritiske tegnene. Dette beror på et vesentlig teknologisk valg som har betydning også når en skal bestemme seg for hvilke tegn en trenger. Dette valget er blant annet betinget av í, som jo ikke egentlig er «i med akutt aksent», men «i uten prikk med akutt aksent».

Unicode har 560 ulike bokstavtegn som betegnes som «latinsk», der «Latin letter» inngår i betegnelsen. Alle tegnene har sine «navn». For eksempel er á «Latin small letter a with acute» og אָ «Hebrew letter alef with qamats». Det er nødvendigvis en viss treghet i overgangen til bruk av Unicode i alle sammenhenger. For eksempel er en del offentlige register fremdeles basert på mer begrensede tegnsett. Dette kan være svært store databaser og omfattende programsystemer som må oppdateres i takt med øvrig utskifting og oppgradering. Men det er ingen grunn for noen til å utvikle nye systemer som har problemer med å gjengi et fullstendig tegnsett.

Det norske tegnsettet

For en del år siden gikk Moldova over fra å bruke det kyrilliske til det latinske alfabetet. Moldovsk er nå identisk med rumensk. Tidligere ble de skrevet med ulike alfabeter; nå skrives de også likt. Skrivemåten av moldovske stedsnavn ble dermed endret. Siden de gamle navnene hadde sin «offisielle» transkripsjon til norsk, vedtok det som da het Norsk språkråd, nye «norske» former av moldovske navn. Der finner en ă ş ţ, som er vanlige tegn på rumensk og moldovsk. Men da ble vel også disse tegnene «norske». For at Språkrådets vedtak skal ha noen mening, må en jo kunne gjengi dem i norske bøker, og de må kunne skrives på norske datamaskiner.

Da er det kanskje ikke hensiktsmessig å sette opp en liste over «norske» tegn. Om en likevel skulle gjøre et forsøk, kunne det være: (1) a–å, som jo er opplagt, (2) á à ã ä ç é è ê ë í ï ñ ó ò ô ö ú ü, som fins i norske rettskrivningsordbøker eller er forholdsvis ofte brukt i gjengivelse av stedsnavn, (3) ă â ã ā ć č đ ð ę ğ î ł ń ň ŋ ő ř ś š ş ţ ŧ þ ù ý ź ž, som forekommer i Språkrådets geografiliste (i tillegg til bokstavene under de to første punktene), og da er det forholdsvis tilfeldig at tegn som ċ ē ġ ħ ī ō ū ű ż (fra andre europeiske språk) ikke er med. For å skrive samisk må en minst ha med tegnene č đ ŋ š ŧ ž (i tillegg til de fleste «norske» tegnene). Det må i det minste alle norske datamaskiner kunne skrive. Men er det egentlig noe behov for å begrense?

Hvorfor alle disse tegnene?

Hva skjer når en person med «utenlandsk» navn slår seg ned i Norge? La oss kalle ham Mąňń (fordi det er enklere enn Kŵıņńĕ). Det er opplagt upraktisk å hete Mann i Norge, så Mąňń insisterer på å hete Mąňń, også hos folkeregister og skattemyndigheter. Brev til Mann returnerer han rett og slett til avsender med påskrift «adressaten ukjent». Mąňń kjenner ikke noen Mann.

En europeisk konvensjon helt fra 1974 (International Commission on Civil Status, der Norge rett nok ikke er medlem) krever at fremmedspråklige navn i offentlige register skal gjengis nøyaktig «uten endring eller oversettelse».

Dette har skjedd i et vesteuropeisk land: En person fikk rettens medhold i at han kunne nekte å motta brev som var stilt til en annen enn ham selv. Det dreide seg om skrivemåten av et «fremmed» navn. Om det dreier seg om Hansen/Hansson eller Mann/Mąňń (eller Haavard/Håvard) kunne være likegyldig. Navn skal skrives rett for å være rette, inklusive alle kruseduller.

Men i så tilfelle er det «norske» tegnsettet identisk med hele det latinske alfabetet. Og så måtte folkeregisteret og skatteetaten bruke hele dette tegnsettet. Det er vel heller ikke egentlig vedtatt noe sted at det er kun det latinske alfabetet som er «lovlig» i Norge …

Dette ser sikkert ut som en stor spøk. Men det ligger svært mye alvor her. Etter min mening er det et stort behov for at det blir tatt skikkelig tak i disse spørsmålene: Hva er minimumstegnsettet en må ha for å kunne skrive norsk tekst og norske navn fullstendig? I hvilke sammenhenger bør en påby bruk av et fullstendig tegnsett? Hva gjør en med tegn som ikke finnes i det «norske» tegnsettet?

Og hvordan kan en skrive dem?

Heller ikke jeg kunne trykke på «Ü-tasten» på mitt tastatur for å skrive Ü. Våre tastaturer viderefører en arv fra manuelle skrivemaskiner, der ett av hensynene en måtte ta, var at bokstaver som ofte kommer rett etter hverandre, ikke måtte ligge for nær hverandre, for å unngå at typearmene skulle henge seg fast i hverandre. Vi kunne hatt helt andre tastaturer. Noen fins, men få ønsker seg et tastatur med 500 taster!

Det arbeides med tastaturløsninger som er mer fleksible enn de som er vanlige nå, uten at en må skifte ut selve tastaturet. En kan få til det ved å endre litt på dødtast-funksjonen, slik at det går an å kombinere flere trykk på tastaturet for å lage et sammensatt tegn. En ønsker å bygge på det tastaturet som folk kjenner, men vi kommer nok til å se flere varianter av dette i framtida.

Rekkefølgen av tegnene

Alfabetisk rekkefølge er ikke trivielt, og det arbeides mye med å finne gode løsninger som både kan dekke særspråklige og internasjonale behov. Det kommer med det aller første en ny europeisk standard for alfabetisk sortering (EN 13710). Den må også tilpasses for å kunne bli en norsk standard for både norsk, samisk og internasjonal anvendelse. Det fins også en internasjonal standard for sortering av det latinske alfabetet (ISO 12199) og en internasjonal metodestandard for alfabetisk sortering (IEO/IEC 14651).

Problemet er selvsagt ikke rekkefølgen av a b c d e f g h i j k l m n o p q r s t u v w x y z æ ø å. Men dersom både Kåre Sæter og Kaare Säter skal delta på en internasjonal konferanse: Hvor kommer de i deltakerlista?

Hovedprinsippene er disse (tatt fra den europeiske standarden, men dette svarer også til de internasjonale):

Talltegnene kommer først, deretter bokstavene i det latinske, greske, kyrilliske, georgiske og armenske alfabetet. I første omgang spiller det ingen rolle om det er store eller små bokstaver, og en ser bort fra diakritiske tegn (aksenter) og skilletegn. Det latinske alfabetet har rekkefølge a–z + þ. En skal merke seg at «sammensatte tegn» som æ og œ blir behandlet som henholdsvis ae og oe. De norske reglene behandler þ som en kombinasjon th, og æ ø å kommer etter z. Dessuten behandles ä ö ü som æ ø y. For fullstendighets skyld behandles også ő og ű som ø og y.
Dersom to ord eller navn er «like» etter denne regelen, behandles diakritiske tegn etter en viss rekkefølge, slik at det blir á à â.
Dersom to ord eller navn fremdeles er «like», kommer små bokstaver foran tilsvarende store bokstaver: a A.
Er det fremdeles likt, tar en hensyn til skilletegn og spesialtegn etter en fastsatt rekkefølge.

Det er bare under det første punktet at det er norske spesialregler.

Vi har et spesielt problem på norsk: aa. På norsk er det tradisjon for å sortere Kåre Ås og Kaare Aas likt. Men i en internasjonal sammenheng blir det ikke så enkelt. Også i norske leksika kommer den tyske byen Aachen i første bind, og Ivar Aasen kommer i siste. Og sekvensen aa fins i mange norske ord (temaavis og hundrevis av andre). Og finnen Kaari (med lang a) og amerikaneren Aaron, som begge bor i Norge, vil neppe føle seg «hjemme» blant å-ene i den norske telefonkatalogen.

Standarder

Internasjonal og nasjonal standardisering er nøkkelen til at alt dette skal kunne henge sammen. Standarder fins, men det er stadig behov for oppdateringer og utarbeiding av nye. Blant annet trenger vi en standard for det norske alfabetet, som må bygge på EN 13710.

Her er en liste over noen aktuelle standarder:

ISO/IEC 10646:2003, Information technology – Universal Multiple-Octet Coded Character Set (UCS). Dette er den formelle internasjonale standarden som svarer til Unicode. Det er standarden for all verdens grafiske tegn, fra a til .

ISO 12199:2000, Alphabetical ordering of multilingual terminological and lexicographical data represented in the Latin alphabet. Denne standarden er utviklet av terminologer og leksikografer og beskriver alfabetiseringsregler som svarer til det som er skrevet på «IT-språk» i ISO/IEC 14651.

IEO/IEC 14651:2007, Information technology – International string ordering and comparison – Method for comparing character strings and description of the common template tailorable ordering. Denne internasjonale standarden er først og fremst en metodestandard, men den inneholder en fullstendig sorteringsrekkefølge for alle tegn i ISO/IEC 10646 (Unicode), med regler for hvordan særspråklige alfabetiseringsregler skal utarbeides.

prEN 13710:2009, European Ordering Rules – Ordering of characters from Latin, Greek, Cyrillic, Georgian and Armenian scripts. Denne nye europeiske standarden er ennå ikke endelig godkjent, men det forventes at det vil skje i løpet av 2009. Den bygger på ISO/IEC 14651, og det er tanken at nasjonale standarder i sin tur skal bygge på den europeiske.

NS 4103:1972, Alfabetiseringsregler. Dette er den «gamle» norske alfabetiseringsstandarden. Den sier mer om hva som skal sorteres, enn om hvordan det skal gjøres, for eksempel at Jens von der Lippe skal alfabetiseres som «Lippe Jens» og Truls L’Orsa som «Lorsa Truls». På ett punkt er NS 4103 på linje med det nye vi kommer til å måtte gjøre i en framtidig norsk standard, men som avviker fra norsk tradisjon: aa sorteres ikke som å. NS 4103 ble utarbeidet før en trengte å ta hensyn til at standarden skulle benyttes i datasystemer. Derfor mangler det en del på at den er anvendelig i våre dager.

-- Håvard Hjulstad er prosjektleder i Standard Norge.

Del denne siden