Versie van 26 jun 2017 11:17 bewerken Patrick (overleg \| bijdragen) uitgebreid bevestigde gebruikers 86.244 bewerkingen →‎Codering ← Oudere bewerking		Versie van 26 jun 2017 11:23 bewerken ongedaan maken Patrick (overleg \| bijdragen) uitgebreid bevestigde gebruikers 86.244 bewerkingen →‎Codering Nieuwere bewerking →
Regel 73: De Unicodestandaard kent aan elk teken een volgnummer toe, dat geschreven wordt als U+xxxx, U+xxxxx of U+xxxxxx, waarin de x'en de 4 tot 6 [[Hexadecimaal\|hexadecimale]] cijfers van het volgnummer zijn (voorloopnullen worden dus in ieder geval toegevoegd om aan te vullen tot vier hexadecimale cijfers, extra voorloopnullen zijn optioneel). De codes die gekoppeld zijn of kunnen worden aan een teken lopen van U+0000 (0) tot en met U+D7FF (55.295) en van U+E000 (57.344) tot en met U+10FFFF (1.114.111). Dat zijn 55.296 + 8.192 = 63.488 (0xF800) tekens met een code tot en met twee bytes, plus 1.048.576 (0x100000) andere, in totaal 1.112.064 (0x10F800). De onderbreking bestaat uit 2048 (0x800) codes die ten behoeve van gunstige eigenschappen van de UTF-16-codering niet gebruikt worden. Unicode biedt verschillende ~~methoden om deze waarden te representeren~~coderingsvormen (''encoding forms'') om deze waarden te representeren: * [[UTF-32]]: Tekens worden opgeslagen als 32-bits getal. Een nadeel is dat ook kleine codes vier bytes vergen. * [[UTF-16]]: Tekens worden opgeslagen als een of twee 16-bits getallen, afhankelijk van de hun toegekende waarde. UTF-16 is een uitbreiding van [[UCS-2]], de codering van Unicode t/m versie 1.1. Voor de tekens die worden opgeslagen als twee 16-bits getallen, worden alleen de 2048 16-bits getallen gebruikt die niet afzonderlijk worden gebruikt voor de opslag van een teken. Daardoor blijven er 63.488 16-bits getallen over voor deze codering. Van deze 2048 16-bits getallen worden er 1024 uitsluitend gebruikt als eerste van de twee 16-bits getallen die een teken representeren, en 1024 uitsluitend als tweede, wat 1.048.576 combinaties oplevert. Regel 114: Aangezien computers getallen die meerdere bytes beslaan, op verschillende wijzen kunnen opslaan, zijn er van UTF-32 en UTF-16 twee varianten mogelijk, nl. [[big-endian]], waarbij de meest significante byte zich op het laagste adres bevindt, en [[little-endian]], met de minst significante byte eerst. De 256 ~~codes~~tekens van [[ISO 8859-1\|ISO-8859-1]] zijn in Unicode onder dezelfde ~~waarden~~codes opgenomen: U+0000 t/m U+00FF. De tweede 128 hiervan ~~kunnen~~worden echter, ~~ongeacht~~in deUnicode ~~gekozen~~in ~~codering,~~geen ~~niet~~van de drie coderingsvormen in één byte ~~worden~~ gerepresenteerd. Ook andere codepagina's van [[ISO 8859]] vindt men in Unicode terug, waarbij de oorspronkelijke tekenvolgorde gehandhaafd is. ==Gebruik==

Unicode: verschil tussen versies