Linux Manpages Online - man.cx manual pages

The Unicode 字符集使用的是 16 位（雙字節）碼。最普遍的 Unicode 編碼方法（ UCS-2) 由一個 16 位雙字序列組成。這樣的字符串中包括了的一些如 ’\0’或 ’/’這樣的在文件名中或者是在 C 庫函數中具有特殊意義的字符。另外，如果沒有做重大的修正的話，大部分操作 ASCII 碼文件的 UNIX 工具不能夠正確識別 16 位的字符。因此， UCS-2 對於 Unicode 的文件名、文本文件、環境變量等等來說並不是一種合適的外部編碼方式。 ISO 10646 Universal Character Set (UCS), 是 Unicode 的超集，甚至使用了 31 位編碼方式，另外還有使用 32 編碼的 UCS-4 也有同樣上述的問題。 UCS-4 而用 UTF-8 對 Unicode UCS 編碼就不會存在這樣的問題。所以， UTF-8 很明顯的是在 UNIX 類操作系統下的 Unicode 字符集的解決方案。

屬性

UTF-8 編碼具有以下優良屬性：

UCS 字符從 0x00000000 到 0x0000007f （傳統的 US-ASCII 字符）簡單地編碼爲字節 0x00 到 0x7f （與 ASCII 碼兼容）。這意味着只包含 7 位 ASCII 字符的文件和字符串在 ASCII 和 UTF-8. 編碼方式下是完全一樣的。

所有大於 0x7f 的 UCS 字符被編碼成爲多字節序列。該序列全部是由 0x80 到 0fd 的字符組成，這樣就不會有標準 ASCII 字符會被作爲某個字的一個部分這種現象出現，對於 ’\0’和 ’\[u2019]這樣的特殊字符來說也就不會有問題了。

保留了 UCS-4 字典中的字節串的排列順序。
* 所有 2^32 次方的 UCS 碼都能夠使用 UTF-8 來進行編碼。
*

0xfe 和 0xff 兩個字符在 UTF-8 中不會被用到。

* 表示非

ASCII 碼的 UCS 多字節串的開始字符總是 0xc0 到 0xfd 之間的字

符，並會指出該串的長度。多字節串的其他字符都是 0x80 到 0xbf 之間的字符。這使得再同步非常簡單，並令編碼是無態的，丟字節現象也不容易發生。

* 用

UTF-8 編碼的 UCS 字符可以增加到 6 個字節的長度。而 Unicode 只能增

加到 3 個字節長。由於 Linux 只使用 16 位的 Unicode ， UCS 的子集。所以在 Linux 下， UTF-8 多字節串長度最多不會超過三個字節。

編碼方式

下面的字節串用來表示一個字符。用什麼串依照該字符在 UCS 編碼中的序號來定：

0x00000000 - 0x0000007F:

0xxxxxxx

0x00000080 - 0x000007FF:

110xxxxx 10xxxxxx

0x00000800 - 0x0000FFFF:

1110xxxx 10xxxxxx 10xxxxxx

0x00010000 - 0x001FFFFF:

11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

0x00200000 - 0x03FFFFFF:

111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

0x04000000 - 0x7FFFFFFF:

1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 這裏 xxx 的位置二進制位形式的字符編碼填入。只用最短的那個足夠表達一個字符編碼數的多字節串。

Manpages

NAME

描述

屬性

編碼方式

舉例說明

遵循標準

作者

參考

[中文版維護人 ]

[中文版最新更新 ]

《中國 linux論壇 man手冊頁翻譯計劃》 :

跋