文档

Java™ 教程-Java Tutorials 中文版
术语
Trail: Internationalization
Lesson: Working with Text
Section: Unicode

术语

character (字符) 是具有语义值的最小文本单位。

character set (字符集) 是可能由多种语言使用的字符集合。例如,拉丁字符集由英语和大多数欧洲语言使用,而希腊语字符集仅由希腊语使用。

coded character set (编码字符集) 是字符集,其中每个字符被分配唯一编号。

code point (代码点)(译注:码位) 是可以在编码字符集中使用的值(。代码点是 32 位 int 数据类型,其中低 21 位表示有效代码点值,高 11 位表示 0。

Unicode code unit (代码单元)(译注:码元) 是 16 位 char 值。例如,想象一个 String,其中包含字母“abc”,后跟 Deseret LONG I,后者用两个 char 值表示。该字符串包含四个字符,四个代码点,但包含五个代码单元。

要以 Unicode 表示字符,十六进制值以字符串 U+ 为前缀。Unicode 标准的有效代码点范围是 U+0000 到 U+10FFFF,包括端点。拉丁字符 A 的代码点值是 U+0041。代表欧元货币的字符 € 具有代码点值 U+20AC。Deseret 字母表中的第一个字母 LONG I 的代码点值为 U+10400。

下表显示了几个字符的代码点值:

Character Unicode 代码点 字形
拉丁文 A. U+0041
拉丁字母 A
Latin sharp S U+00DF
拉丁文小写字母 S
东方汉 U+6771
东方的汉字
Deseret, LONG I U+10400
Deseret 的大写字母 long I

如前所述,在 U+10000 到 U+10FFFF 范围内的字符被称为补充字符。从 U+0000 到 U+FFFF 的字符集有时被称为 Basic Multilingual Plane (BMP)

更多术语可在 More Information 页面上列出的 Glossary of Unicode Terms ( Unicode 词汇表) 中找到。


Previous page: Unicode
Next page: Supplementary Characters as Surrogates