Unicode wird im bei Computern immer wichtiger, leider gibt es nicht nur eine Möglichkeit. Um die Kompatibilität zu ASCII-Texten zu erhalten wurde der UTF-8 Standard erfunden, das mit 8-Bit-Zeichen die Einzelnen Buchstaben und Zeichen kodiert. So sind die 7-Bit Werte der ASCII-Zeichen identisch mit den 8-Bit-Werten der UTF-8 Zeichen. Der Wert 65 in steht für das große A, in UTF-8 wird ebenfalls ein Byte mit dem Wert 65 verwendet. UTF-16 verwendet zwei Bytes mit dem Wert 65. Schaut man sich also einen UTF-16 Text an, findet sich zwischen den Buchstaben jeweils ein unge- nutztes Nullbyte, dass Textanzeiger unter Umständen verwirrt. Trotzdem können alle UTF-16-Zeichen in UTF-8 kodiert werden, indem manche Zeichen in zwei oder auch mehr Byte kodiert werden.
| Zeichen | HTML-Code | UTF-16 | UTF-8 | UTF-8 - C-String |
|---|
| ä | ä | 0x00E4 | 0xC3A4 | \xC3\xA4 | | Ä | Ä | 0x00C4 | 0xC384 | \xC3\x84 | | ö | ö | 0x00F6 | 0xC3B6 | \xC3\xB6 | | Ö | Ö | 0x00D6 | 0xC396 | \xC3\x96 | | ü | ü | 0x00FC | 0xC3BC | \xC3\xBC | | Ü | Ü | 0x00DC | 0xC39C | \xC3\x9C | | ß | ß | 0x00DF | 0xC39F | \xC3\x9F | | € | € | 0x20AC | 0xE282AC | \xE2\x82\xAC |
Unicodes werden üblicherweise in UTF-16 angeben, benötigen Sie Kodierung in UTF-8, finden sie bei Wikipedia einen Artikel, der die Umrechnung beschreibt. Bei www.unicode.org finden Sie Tabellen in denen Sie das UTF-16 Zeichen für alle vorhandenen Unicode-Zeichen nachschlagen können.
Benötigen Sie für zum Beispiel gtk+-Programmierung nun die Darstellung als UTF-8 Zeichen, so tragen Sie den UTF16-Wert des Zeichen in folgendes Formular ein:
|