Unicode: verschil tussen versies

Verwijderde inhoud Toegevoegde inhoud
Regel 74:
 
Unicode biedt verschillende coderingsvormen (''encoding forms'') om deze waarden te representeren:
* [[UTF-32]]: Een code-eenheid (''code unit'') heeft 32 bits. Tekens worden opgeslagen alsin 32-bitséén getalcode-eenheid. Een nadeel is dat ook kleine codes vier bytes vergen.
* [[UTF-16]]: Een code-eenheid heeft 16 bits. Tekens worden opgeslagen alsin een of twee 16code-bits getalleneenheden, afhankelijk van de hun toegekende waarde. UTF-16 is een uitbreiding van [[UCS-2]], de codering van Unicode t/m versie 1.1. Voor de tekens die worden opgeslagen alsin twee 16code-bits getallen,eenheden worden alleen de 2048 16-bits getallen gebruikt die niet afzonderlijk worden gebruikt voor de opslag van een teken. Daardoor blijven er 63.488 16-bits getallen over voor dezeopslag coderingvan een teken in één code-eenheid. Van deze 2048 16-bits getallen worden er 1024 uitsluitend gebruikt als eerste van de twee 16-bits getallen die een teken representeren, en 1024 uitsluitend als tweede, wat 1.048.576 combinaties oplevert.
* [[UTF-8]]: Een code-eenheid heeft 8 bits. Tekens worden opgeslagen alsin een tot vier 8code-bits getalleneenheden, afhankelijk van de hun toegekende waarde. Voor de tekens die worden opgeslagen alsin twee tot vier 8code-bits getalleneenheden, worden niet de 128 8-bits getallen gebruikt die afzonderlijk worden gebruikt voor de opslag van een teken. Van de resterende 128 8-bits getallen worden er 64 uitsluitend gebruikt voor de vervolg-8-bits getallen voor tekens die worden opgeslagen alsin twee tot vier 8code-bits getalleneenheden. Van de resterende 64 8-bits getallen worden er 32 uitsluitend gebruikt voor het eerste 8-bits getal voor de 1920 tekens die worden opgeslagen alsin twee 8code-bits getalleneenheden, 16 uitsluitend voor het eerste 8-bits getal voor de 61.440 tekens die worden opgeslagen alsin drie 8code-bits getalleneenheden, 8 uitsluitend voor het eerste 8-bits getal voor de 1.048.576 tekens die worden opgeslagen alsin vier 8code-bits getalleneenheden, en 8 niet gebruikt. In deze codering worden ASCII-tekens onveranderd gecodeerd, en vergen daardoor minder geheugen dan met UTF-16 (een in plaats van twee bytes), maar vrij grote codes vergen meer geheugen (drie in plaats van twee bytes).
 
<small>