Representasjoner

Opptelling av tegn

Den valgte siden har norsk tekst, og inneholder 1229 tegn. Av disse er 24 utenfor ASCII's kodetabell. Det er tegnene æ, ø, å og è.

UTF-32

 HeksadesimalBinær
æU+00E60000 0000 0000 0000 0000 0000 1110 0110
øU+00F80000 0000 0000 0000 0000 0000 1111 1000
åU+00E50000 0000 0000 0000 0000 0000 1110 0101
éU+00E90000 0000 0000 0000 0000 0000 1110 1001
eU+00650000 0000 0000 0000 0000 0000 0110 0101
´U+03010000 0000 0000 0000 0000 0011 0000 0001
Tegnrepresentasjonen har fast lengde.
De 1229 tegnene på boksiden hvorav hvert tegn opptar 32 biter, vil oppta hele 4916 Bytes(39328 bits).

UTF-16

 HeksadesimalBinær
æU+00E60000 0000 1110 0110
øU+00F80000 0000 1111 1000
åU+00E50000 0000 1110 0101
éU+00E90000 0000 1110 1001
eU+00650000 0000 0110 0101
´U+03010000 0011 0000 0001
Tegnrepresentasjonen har fast lengde, så lenge man ikke benytter seg av surrogatpar.
Siden ingen av tegnene på boksiden er utenfor BMP og man ikke trenger å benytte seg av surrogatpar, behøver man ikke å benytte seg av mer enn 16 biter per tegn. Boksiden kommer da på 2458 Bytes(19664 bits).

UTF-8

 HeksadesimalBinær
æU+00E61100 0011 1010 0110
øU+00F81100 0011 1011 1000
åU+00E51100 0011 1010 0101
éU+00E91100 0011 1010 1001
eU+00650110 0101
´U+03011100 1100 1000 0001
Tegnrepresentasjonen har variabel lengde.
1205 av tegnene på boksiden holder seg innenfor ASCII's kodtabell og opptar derfor kun 8 biter per tegn. De 24 gjenstående som består av de tegnene som er nevnt i tabellene over, benytter seg alle av 16 biter per tegn. Summen på boksiden blir 1253 Bytes(10024 bits).

Konklusjon


UTF-32 vil alltid ha fast lengde siden det ikke eksisterer noen tegn som opptar mer enn 32 biter. UTF-16 og UTF-8 derimot har variabel lengde. Om vi tar for oss UTF-16 først, kan man si at så lenge man holder seg innenfor BMP vil man benytte seg av 16 biter per tegn. Havner man utenfor, f eks med hieroglyfer, må man bruke surrogatpar og da går det med 32 biter per tegn. Når det gjelder UTF-8 så er det litt av det samme prinsippet som gjelder. Men her er det et spørsmål om man er innenfor eller utenfor ASCII's gamle kodetabell. Holder man seg innenfor holder det med 8 biter men havner man utenfor kan det gå med 16, 24 eller 32 biter per tegn, alt etter hvor i Unicode tegnet befinner seg.
Når det gjelder hvilken representasjon som er minst plasskrevende i denne boken, så er det helt klart UTF-8 som ikke trenger mer enn 1253 Bytes på boksiden. Klart mest plass er det UTF-32 som trenger, med hele 4916 Bytes. Det er nesten 4 ganger mer enn UTF-8, men siden 24 av tegnene befinner seg utenfor ASCII blir det ikke eksakt 4 ganger mer. UTF-16 derimot holder seg innenfor BMP slik at alle tegnene på boksiden anvender 16 bits per tegn. Det vil si at man i motsetning til UTF-32, fjerner seksten 0'er som ikke anvendes til noen ting. Da har man halvert antall bits og man ender opp med 2458 Bytes som er eksakt halvparten av UTF-32's 4916 Bytes.
For oss her i norge, og vesten forøvrig, fungerer UTF-8 veldig bra siden de fleste tegnene vi bruker ligger i ASCII. Skulle man foretrekke å skrive med egyptiske hieroglyfer ville UTF-8 og UTF-16 være helt uhensiktsmessig siden ingen hieroglyfer kan representreres med 8 eller 16 biter.

Til toppen av siden


Oppdatert 12. Oktober 2005 av Marius Lifvergren lifverg@online.no

Denne siden fyller kravene til XHTML 1.0 Strict

Valid CSS!