Java 教程是为 JDK 8 编写的。本页中描述的示例和实践未利用在后续版本中引入的改进。
character (字符) 是具有语义值的最小文本单位。
character set (字符集) 是可能由多种语言使用的字符集合。例如,拉丁字符集由英语和大多数欧洲语言使用,而希腊语字符集仅由希腊语使用。
coded character set (编码字符集) 是字符集,其中每个字符被分配唯一编号。
code point (代码点)(译注:码位) 是可以在编码字符集中使用的值(。代码点是 32 位 int
数据类型,其中低 21 位表示有效代码点值,高 11 位表示 0。
Unicode code unit (代码单元)(译注:码元) 是 16 位 char
值。例如,想象一个 String
,其中包含字母“abc”,后跟 Deseret LONG I,后者用两个 char
值表示。该字符串包含四个字符,四个代码点,但包含五个代码单元。
要以 Unicode 表示字符,十六进制值以字符串 U+ 为前缀。Unicode 标准的有效代码点范围是 U+0000 到 U+10FFFF,包括端点。拉丁字符 A 的代码点值是 U+0041。代表欧元货币的字符 € 具有代码点值 U+20AC。Deseret 字母表中的第一个字母 LONG I 的代码点值为 U+10400。
下表显示了几个字符的代码点值:
Character | Unicode 代码点 | 字形 |
---|---|---|
拉丁文 A. | U+0041 |
|
Latin sharp S | U+00DF |
|
东方汉 | U+6771 |
|
Deseret, LONG I | U+10400 |
|
如前所述,在 U+10000 到 U+10FFFF 范围内的字符被称为补充字符。从 U+0000 到 U+FFFF 的字符集有时被称为 Basic Multilingual Plane (BMP)。
更多术语可在 More Information 页面上列出的 Glossary of Unicode Terms ( Unicode 词汇表) 中找到。