UTF-8 Zeichen

Unicode wird im bei Computern immer wichtiger, leider gibt es nicht nur eine Möglichkeit. Um die Kompatibilität zu ASCII-Texten zu erhalten wurde der UTF-8 Standard erfunden, das mit 8-Bit-Zeichen die Einzelnen Buchstaben und Zeichen kodiert. So sind die 7-Bit Werte der ASCII-Zeichen identisch mit den 8-Bit-Werten der UTF-8 Zeichen. Der Wert 65 in steht für das große A, in UTF-8 wird ebenfalls ein Byte mit dem Wert 65 verwendet. UTF-16 verwendet zwei Bytes mit dem Wert 65. Schaut man sich also einen UTF-16 Text an, findet sich zwischen den Buchstaben jeweils ein unge- nutztes Nullbyte, dass Textanzeiger unter Umständen verwirrt.

Trotzdem können alle UTF-16-Zeichen in UTF-8 kodiert werden, indem manche Zeichen in zwei oder auch mehr Byte kodiert werden.

 Zeichen  HTML-Code  UTF-16  UTF-8  UTF-8 - C-String 
ää0x00E40xC3A4\xC3\xA4
ÄÄ0x00C40xC384\xC3\x84
öö0x00F60xC3B6\xC3\xB6
ÖÖ0x00D60xC396\xC3\x96
üü0x00FC0xC3BC\xC3\xBC
ÜÜ0x00DC0xC39C\xC3\x9C
ßß0x00DF0xC39F\xC3\x9F
€0x20AC0xE282AC\xE2\x82\xAC

Unicodes werden üblicherweise in UTF-16 angeben, benötigen Sie Kodierung in UTF-8, finden sie bei Wikipedia einen Artikel, der die Umrechnung beschreibt. Bei www.unicode.org finden Sie Tabellen in denen Sie das UTF-16 Zeichen für alle vorhandenen Unicode-Zeichen nachschlagen können.


Benötigen Sie für zum Beispiel gtk+-Programmierung nun die Darstellung als UTF-8 Zeichen, so tragen Sie den UTF16-Wert des Zeichen in folgendes Formular ein:

(Hexadezimal, wer Unsinn einträgt, bekommt Unsinn raus...)