Damit ein Computer Text und Zahlen speichern kann, die der Mensch verstehen kann, muss es einen Code geben, der Zeichen in Zahlen umwandelt. Der Unicode-Standard definiert einen solchen Code mithilfe der Zeichencodierung.
Der Grund, warum die Zeichencodierung so wichtig ist, ist, dass jedes Gerät die gleichen Informationen anzeigen kann. Ein benutzerdefiniertes Zeichencodierungsschema funktioniert möglicherweise auf einem Computer einwandfrei, es treten jedoch Probleme auf, wenn Sie denselben Text an eine andere Person senden. Es wird nicht wissen, wovon Sie sprechen, es sei denn, es versteht auch das Kodierungsschema.
Bei der Zeichenkodierung wird jedem Zeichen, das verwendet werden kann, eine Nummer zugewiesen. Sie können jetzt eine Zeichenkodierung vornehmen.
Zum Beispiel könnte ich sagen, dass der Brief EIN wird zur Zahl 13, a = 14, 1 = 33, # = 123 usw..
Hier setzen branchenweite Standards an. Wenn die gesamte Computerbranche dasselbe Zeichencodierungsschema verwendet, kann jeder Computer dieselben Zeichen anzeigen.
ASCII (American Standard Code für Information Interchange) wurde das erste weit verbreitete Codierungsschema. Es sind jedoch nur 128 Zeichendefinitionen zulässig. Dies ist in Ordnung für die gebräuchlichsten englischen Zeichen, Zahlen und Satzzeichen, ist jedoch für den Rest der Welt ein wenig einschränkend.
Natürlich wünscht sich der Rest der Welt dasselbe Kodierungsschema auch für ihre Charaktere. Je nachdem, wo Sie sich gerade befinden, wird möglicherweise ein anderes Zeichen für denselben ASCII-Code angezeigt.
Am Ende begannen die anderen Teile der Welt, ihre eigenen Codierungsschemata zu entwickeln, und die Dinge begannen ein wenig verwirrend zu werden. Die Codierungsschemata waren nicht nur unterschiedlich lang, sondern es mussten auch Programme herausfinden, welches Codierungsschema sie verwenden sollten.
Es stellte sich heraus, dass ein neues Zeichencodierungsschema erforderlich war, als der Unicode-Standard erstellt wurde. Das Ziel von Unicode ist es, alle verschiedenen Codierungsschemata zu vereinheitlichen, damit die Verwechslung zwischen Computern so weit wie möglich eingeschränkt wird.
Heutzutage definiert der Unicode-Standard Werte für mehr als 128.000 Zeichen und kann im Unicode-Konsortium eingesehen werden. Es hat mehrere Zeichenkodierungsformen:
Hinweis: UTF bedeutet Unicode Transformation Unit.
Ein Codepunkt ist der Wert, den ein Zeichen im Unicode-Standard angibt. Die Werte nach Unicode werden als Hexadezimalzahlen geschrieben und haben ein Präfix von U+.
Um beispielsweise die zuvor betrachteten Zeichen zu kodieren: