Eine Erklärung der Unicode-Zeichenkodierung

Damit ein Computer Text und Zahlen speichern kann, die der Mensch verstehen kann, muss es einen Code geben, der Zeichen in Zahlen umwandelt. Der Unicode-Standard definiert einen solchen Code mithilfe der Zeichencodierung.

Der Grund, warum die Zeichencodierung so wichtig ist, ist, dass jedes Gerät die gleichen Informationen anzeigen kann. Ein benutzerdefiniertes Zeichencodierungsschema funktioniert möglicherweise auf einem Computer einwandfrei, es treten jedoch Probleme auf, wenn Sie denselben Text an eine andere Person senden. Es wird nicht wissen, wovon Sie sprechen, es sei denn, es versteht auch das Kodierungsschema.

Zeichenkodierung

Bei der Zeichenkodierung wird jedem Zeichen, das verwendet werden kann, eine Nummer zugewiesen. Sie können jetzt eine Zeichenkodierung vornehmen.

Zum Beispiel könnte ich sagen, dass der Brief EIN wird zur Zahl 13, a = 14, 1 = 33, # = 123 usw..

Hier setzen branchenweite Standards an. Wenn die gesamte Computerbranche dasselbe Zeichencodierungsschema verwendet, kann jeder Computer dieselben Zeichen anzeigen.

Was ist Unicode??

ASCII (American Standard Code für Information Interchange) wurde das erste weit verbreitete Codierungsschema. Es sind jedoch nur 128 Zeichendefinitionen zulässig. Dies ist in Ordnung für die gebräuchlichsten englischen Zeichen, Zahlen und Satzzeichen, ist jedoch für den Rest der Welt ein wenig einschränkend.

Natürlich wünscht sich der Rest der Welt dasselbe Kodierungsschema auch für ihre Charaktere. Je nachdem, wo Sie sich gerade befinden, wird möglicherweise ein anderes Zeichen für denselben ASCII-Code angezeigt.

Am Ende begannen die anderen Teile der Welt, ihre eigenen Codierungsschemata zu entwickeln, und die Dinge begannen ein wenig verwirrend zu werden. Die Codierungsschemata waren nicht nur unterschiedlich lang, sondern es mussten auch Programme herausfinden, welches Codierungsschema sie verwenden sollten.

Es stellte sich heraus, dass ein neues Zeichencodierungsschema erforderlich war, als der Unicode-Standard erstellt wurde. Das Ziel von Unicode ist es, alle verschiedenen Codierungsschemata zu vereinheitlichen, damit die Verwechslung zwischen Computern so weit wie möglich eingeschränkt wird.

Heutzutage definiert der Unicode-Standard Werte für mehr als 128.000 Zeichen und kann im Unicode-Konsortium eingesehen werden. Es hat mehrere Zeichenkodierungsformen:

  • UTF-8: Verwendet nur ein Byte (8 Bit), um englische Zeichen zu codieren. Es kann eine Folge von Bytes verwenden, um andere Zeichen zu codieren. UTF-8 ist in E-Mail-Systemen und im Internet weit verbreitet.
  • UTF-16: Verwendet zwei Bytes (16 Bits), um die am häufigsten verwendeten Zeichen zu codieren. Bei Bedarf können die zusätzlichen Zeichen durch ein Paar 16-Bit-Zahlen dargestellt werden.
  • UTF-32: Verwendet vier Bytes (32 Bits) zum Codieren der Zeichen. Es stellte sich heraus, dass mit dem Anwachsen des Unicode-Standards eine 16-Bit-Zahl zu klein ist, um alle Zeichen darzustellen. UTF-32 kann jedes Unicode-Zeichen als eine Zahl darstellen.

Hinweis: UTF bedeutet Unicode Transformation Unit.

Codepunkte

Ein Codepunkt ist der Wert, den ein Zeichen im Unicode-Standard angibt. Die Werte nach Unicode werden als Hexadezimalzahlen geschrieben und haben ein Präfix von U+.

Um beispielsweise die zuvor betrachteten Zeichen zu kodieren:

  • EIN ist U + 0041
  • ein ist U + 0061
  • 1 ist U + 0031
  • # ist U + 0023