Den valgte siden har norsk tekst, og inneholder 1229 tegn. Av disse er 24 utenfor ASCII's kodetabell. Det er tegnene æ, ø, å og è.
UTF-32
| | Heksadesimal | Binær |
| æ | U+00E6 | 0000 0000 0000 0000 0000 0000 1110 0110 |
| ø | U+00F8 | 0000 0000 0000 0000 0000 0000 1111 1000 |
| å | U+00E5 | 0000 0000 0000 0000 0000 0000 1110 0101 |
| é | U+00E9 | 0000 0000 0000 0000 0000 0000 1110 1001 |
| e | U+0065 | 0000 0000 0000 0000 0000 0000 0110 0101 |
| ´ | U+0301 | 0000 0000 0000 0000 0000 0011 0000 0001 |
Tegnrepresentasjonen har fast lengde.
De 1229 tegnene på boksiden hvorav hvert tegn opptar 32 biter, vil oppta hele 4916 Bytes(39328 bits).
UTF-16
| | Heksadesimal | Binær |
| æ | U+00E6 | 0000 0000 1110 0110 |
| ø | U+00F8 | 0000 0000 1111 1000 |
| å | U+00E5 | 0000 0000 1110 0101 |
| é | U+00E9 | 0000 0000 1110 1001 |
| e | U+0065 | 0000 0000 0110 0101 |
| ´ | U+0301 | 0000 0011 0000 0001 |
Tegnrepresentasjonen har fast lengde, så lenge man ikke benytter seg av surrogatpar.
Siden ingen av tegnene på boksiden er utenfor BMP og man ikke trenger å benytte seg av surrogatpar, behøver man ikke å benytte seg av mer enn 16 biter per tegn.
Boksiden kommer da på 2458 Bytes(19664 bits).
UTF-8
| | Heksadesimal | Binær |
| æ | U+00E6 | 1100 0011 1010 0110 |
| ø | U+00F8 | 1100 0011 1011 1000 |
| å | U+00E5 | 1100 0011 1010 0101 |
| é | U+00E9 | 1100 0011 1010 1001 |
| e | U+0065 | 0110 0101 |
| ´ | U+0301 | 1100 1100 1000 0001 |
Tegnrepresentasjonen har variabel lengde.
1205 av tegnene på boksiden holder seg innenfor ASCII's kodtabell og opptar derfor kun 8 biter per tegn. De 24 gjenstående som består av de tegnene som er
nevnt i tabellene over, benytter seg alle av 16 biter per tegn. Summen på boksiden blir 1253 Bytes(10024 bits).
Konklusjon
UTF-32 vil alltid ha fast lengde siden det ikke eksisterer noen tegn som opptar mer enn 32 biter. UTF-16 og UTF-8 derimot har variabel lengde. Om vi tar for oss
UTF-16 først, kan man si at så lenge man holder seg innenfor BMP vil man benytte seg av 16 biter per tegn. Havner man utenfor, f eks med hieroglyfer, må man
bruke surrogatpar og da går det med 32 biter per tegn. Når det gjelder UTF-8 så er det litt av det samme prinsippet som gjelder. Men her er det et spørsmål
om man er innenfor eller utenfor ASCII's gamle kodetabell. Holder man seg innenfor holder det med 8 biter men havner man utenfor kan det gå med 16, 24 eller
32 biter per tegn, alt etter hvor i Unicode tegnet befinner seg.
Når det gjelder hvilken representasjon som er minst plasskrevende i denne boken, så er det helt klart UTF-8 som ikke trenger mer enn 1253 Bytes på boksiden. Klart mest
plass er det UTF-32 som trenger, med hele 4916 Bytes. Det er nesten 4 ganger mer enn UTF-8, men siden 24 av tegnene befinner seg utenfor ASCII blir det ikke
eksakt 4 ganger mer. UTF-16 derimot holder seg innenfor BMP slik at alle tegnene på boksiden anvender 16 bits per tegn. Det vil si at man i motsetning
til UTF-32, fjerner seksten 0'er som ikke anvendes til noen ting. Da har man halvert antall bits og man ender opp med 2458 Bytes som er eksakt halvparten
av UTF-32's 4916 Bytes.
For oss her i norge, og vesten forøvrig, fungerer UTF-8 veldig bra siden de fleste tegnene vi bruker ligger i ASCII. Skulle man foretrekke å skrive
med egyptiske hieroglyfer ville UTF-8 og UTF-16 være helt uhensiktsmessig siden ingen hieroglyfer kan representreres med 8 eller 16 biter.
Til toppen av siden