文字 (Unicode)
在Unicode中,一种文字(script)是字母和其他书面符号的一个集合,用于在一个或多个书写系统(writing system)中表示文本信息。[1]有些文字只支持一种书写系统和语言,例如亚美尼亚语。其他文字支持许多不同的书写系统:例如,拉丁文字支持英语、法语、德语、意大利语、越南语、拉丁语本身以及其他多种语言。一些语言有多种可选的书写系统,因而也就使用多种文字:例如,在土耳其语中,阿拉伯文字在20世纪之前使用,但在20世纪初过渡到拉丁文字。有关每种文字支持的语言列表,请参阅按文字列出的语言列表。符号和Unicode控制字符某种程度上与文字互补。
统一化后的变音字符和标点字符经常具有“通用”或“继承”的文字属性。然而,独立的文字往往有自己的标点和变音符号,以至于许多文字不仅包含字母,还包含变音符号等标记、标点、数字,甚至还有自己的特殊符号和空格字符。
Unicode 15.0定义了161种独立的文字,包括94种现代文字和67种古代或历史文字。[2][3]更多的文字正在编码过程中,有的已被临时分配予计划中的编码。[4]
定义和分类
[编辑]当多种语言使用相同的文字时,经常会出现一些差异,特别是在变音符号和其他标记方面。例如,瑞典语和英语都使用拉丁文字。但是,瑞典语包括字符å(有时称为瑞典语的O),而英语没有这样的字符。英语也没有使用变音符号“组合用上圆圈”来表示任何字符。通常,共享相同文字的语言共享许多相同的字符。尽管瑞典语和英语书写系统存在这些外围差异,但它们被认为使用同一种拉丁文字。因而,Unicode对文字的抽象是一种基本的组织手段。不同字母或书写系统之间的差异仍然存在,并通过Unicode灵活的文字、组合标记和校对算法得到支持。
文字与书写系统
[编辑]书写系统有时被视为文字的同义词。但是,它也可以指一种文字所支持的具体的具体书写系统。例如,拉丁文字支持越南语书写系统。一个书写系统也可能涵盖多种文字;例如,日本的书写系统使用汉字、平假名和片假名。
大多数书写系统可以大致分为几类:象形(logographic)、音节(syllabic)、字母(alphabetic,亦称segmental)、元音附标(abugida)、辅音音素(abjad)和特征(featural);然而,这些分类的所有特征都可能以不同的比例出现在任何给定的书写系统中,这导致通常很难对一个系统进行纯粹的分类。术语复杂系统有时用于分类有困难的混合系统。
Unicode通过其众多的文字支持所有这些类型的书写系统。Unicode还为字符添加了更多属性,以帮助区分各种字符以及它们在Unicode文本处理算法中的行为方式。
特殊文字属性值
[编辑]除了显式或特定的文字属性外,Unicode还使用三个特殊值:[5]
- 通用
- Unicode只能将通用字符集中的一个字符分配给一种文字。但是,许多字符(不属于正式的自然语言书写系统的一部分,或在许多书写系统中统一的字符)可能用于多种文字(例如货币符号、规约符号、数字和标点符号)。在这些情况下,Unicode将它们定义为属于“通用”文字(ISO 15924代码
Zyyy
)。 - 继承
- 许多变音符号和非间距组合字符可以应用于来自多种文字的字符。在这些情况下,Unicode 将它们分配给“继承”文字(ISO 15924 代码
Zinh
),这意味着它们属于与它们所组合的主要字符相同的文字类型,因此在不同的上下文中它们可能被视为属于不同的文字。例如,U+0308 ̈ COMBINING DIAERESIS(组合用分音符)既可以与U+0065 e LATIN SMALL LETTER E(小写拉丁字母E)组合为拉丁字母ë,也可以与U+0435 е CYRILLIC SMALL LETTER IE(小写西里尔字母IE)组合为西里尔字母ё。在前一个例子中,它继承了主要字符的拉丁文字属性,而在后一个例子中继承了西里尔文字属性。 - 未知
- “未知”文字值(ISO 15924 代码
Zzzz
)被赋予未分配的、私用的、非字符的以及代理用的码点。
文字中的字符类别
[编辑]Unicode为每个字符提供了一个通用的类别属性。所以每个字符除了属于一种文字之外,还从属于一个类别。通常的文字由字母字符组成,包括:大写字母、小写字母和修饰字母。一些字符被认为是一些预组的连字的标题字母,例如Dz(U+01F2)。此类标题连字均采用拉丁语和希腊语文字,并且都是兼容字符,因此Unicode不鼓励使用它们。将来不太可能添加新的标题字母。
大多数书写系统不区分大小写字母。对于这些文字,所有字母都归类为“其他字母”或“修饰字母”。中日韩统一表意文字等表意文字也被归类为“其他字母”。然而,一些文字确实区分了大写和小写:拉丁文字、西里尔文字、希腊文字、亚美尼亚文字、格鲁吉亚文字和沙漠文字,但即使对于这些文字,也有一些字母既不是大写也不是小写。
文字还可以包含任何其他一般类别字符,例如标记(变音符号和其他)、数字(数字)、标点符号、分隔符(单词分隔符,例如空格)、符号和非图形格式字符。当它们仅被特定文字使用时,它们会包含在特定文字中,否则通常会被统一化并包含在标点符号或变音符号区块中。但是,任何文字(除了“通用”和“继承:文字)中的大部分字符都是字母。
Unicode中的文字列表
[编辑]Unicode根据 ISO 15924列表定义了一百多个文字名称(称为“别名”或“属性值别名”)。Unicode对ISO 15924的Zyyy
(未确定文字的代码)使用“通用”名称,对ISO 15924的Zinh
(继承文字的代码)使用“继承”,对ISO 15924的Zzzz
(未编码文字的代码)使用“未知”。此外,ISO 15924文字代码Zsym
(符号)和Zmth
(数学符号)未被使用,它们不被认为是Unicode意义上的文字。
ISO 15924 | Unicode收录的文字[e] | |||||||
---|---|---|---|---|---|---|---|---|
代码 | No. | ISO 15924 名称 |
中文名称 | 别名[f] | 方向 | 版本 | 字元数 | 备注 |
Adlm | 166 | Adlam | 富拉语文字 | Adlam | 从右至左书写 | 9.0 | 88 | |
Afak | 439 | Afaka | 阿法卡音节文字 | 从左至右 | 未被Unicode收录, proposal under review by the Unicode Technical Committee[6][7] | |||
Aghb | 239 | Caucasian Albanian | 高加索阿尔巴尼亚文 | Caucasian Albanian | 从左至右 | 7.0 | 53 | 古代/历史文字 |
Ahom | 338 | Ahom, Tai Ahom | 阿洪姆文 | Ahom | 从左至右 | 8.0 | 58 | 古代/历史文字 |
Arab | 160 | Arabic | 阿拉伯文 | Arabic | 从右至左书写 | 1.0 | 1,281 | |
Aran | 161 | Arabic (Nastaliq variant) | 波斯体阿拉伯文 | 从右至左书写 | Typographic variant of Arabic | |||
Armi | 124 | Imperial Aramaic | 阿拉米字母 | Imperial Aramaic | 从右至左书写 | 5.2 | 31 | 古代/历史文字 |
Armn | 230 | Armenian | 亚美尼亚字母 | Armenian | 从左至右 | 1.0 | 95 | |
Avst | 134 | Avestan | 阿维斯陀字母 | Avestan | 从右至左书写 | 5.2 | 61 | 古代/历史文字 |
Bali | 360 | Balinese | 巴厘字母 | Balinese | 从左至右 | 5.0 | 121 | |
Bamu | 435 | Bamum | 巴姆穆文字 | Bamum | 从左至右 | 5.2 | 657 | |
Bass | 259 | Bassa Vah | 巴萨文 | Bassa Vah | 从左至右 | 7.0 | 36 | 古代/历史文字 |
Batk | 365 | Batak | 巴塔克文 | Batak | 从左至右 | 6.0 | 56 | |
Beng | 325 | Bengali (Bangla) | 孟加拉文 | Bengali | 从左至右 | 1.0 | 96 | |
Bhks | 334 | Bhaiksuki | 拜克舒基文 | Bhaiksuki | 从左至右 | 9.0 | 97 | 古代/历史文字 |
Blis | 550 | Blissymbols | 布力辛博文 | 从左至右 | 未被Unicode收录, proposal in initial/exploratory stage[6] | |||
Bopo | 285 | Bopomofo | 注音符号 | Bopomofo | 从左至右、从右至左书写 | 1.0 | 72 | |
Brah | 300 | Brahmi | 婆罗米文 | Brahmi | 从左至右 | 6.0 | 109 | 古代/历史文字 |
Brai | 570 | Braille | 点字 | Braille | 从左至右 | 3.0 | 256 | |
Bugi | 367 | Buginese | 布吉文 | Buginese | 从左至右 | 4.1 | 30 | |
Buhd | 372 | Buhid | 布希德文 | Buhid | 从左至右 | 3.2 | 20 | |
Cakm | 349 | Chakma | 查克马文 | Chakma | 从左至右 | 6.1 | 70 | |
Cans | 440 | Unified Canadian Aboriginal Syllabics | 加拿大原住民音节文字 | Canadian Aboriginal | 从左至右 | 3.0 | 710 | |
Cari | 201 | Carian | 卡里亚字母 | Carian | 从左至右、从右至左书写 | 5.1 | 49 | 古代/历史文字 |
Cham | 358 | Cham | 占文 | Cham | 从左至右 | 5.1 | 83 | |
Cher | 445 | Cherokee | 切罗基文 | Cherokee | 从左至右 | 3.0 | 172 | |
Chrs | 109 | Chorasmian | 花剌子模文 | Chorasmian | 从右至左书写、从上至下 | 未被Unicode收录 | ||
Cirt | 291 | Cirth | 克尔斯文 | 从左至右 | 未被Unicode收录 | |||
Copt | 204 | Coptic | 科普特字母 | Coptic | 从左至右 | 1.0 | 137 | 古代/历史文字, Disunified from Greek in 4.1 |
Cpmn | 402 | Cypro-Minoan | 塞浦路斯-米诺斯文字 | Cypro Minoan | 从左至右 | 未被Unicode收录 | ||
Cprt | 403 | Cypriot syllabary | 塞浦路斯音节文字 | Cypriot | 从右至左书写 | 4.0 | 55 | 古代/历史文字 |
Cyrl | 220 | Cyrillic | 西里尔字母 | Cyrillic | 从左至右 | 1.0 | 443 | |
Cyrs | 221 | Cyrillic (Old Church Slavonic variant) | 早期西里尔字母 | 从左至右 | 古代/历史文字, typographic variant of Cyrillic | |||
Deva | 315 | Devanagari (Nagari) | 天城文 | Devanagari | 从左至右 | 1.0 | 154 | |
Diak | 342 | Dives Akuru | 迪维希阿库鲁文 | Dives Akuru | 从左至右 | 未被Unicode收录 | ||
Dogr | 328 | Dogra | 多格拉文 | Dogra | 从左至右 | 11.0 | 60 | 古代/历史文字 |
Dsrt | 250 | Deseret (Mormon) | 德瑟雷特字母 | Deseret | 从左至右 | 3.1 | 80 | |
Dupl | 755 | Duployan shorthand, Duployan stenography | 杜普雷速记 | Duployan | 从左至右 | 7.0 | 143 | |
Egyd | 070 | Egyptian demotic | 世俗体 | 双向文稿 | 未被Unicode收录 | |||
Egyh | 060 | Egyptian hieratic | 僧侣体 | 未被Unicode收录 | ||||
Egyp | 050 | Egyptian hieroglyphs | 圣书体 | Egyptian Hieroglyphs | 从右至左书写、从左至右 | 5.2 | 1,080 | 古代/历史文字 |
Elba | 226 | Elbasan | 爱尔巴桑字母 | Elbasan | 从左至右 | 7.0 | 40 | 古代/历史文字 |
Elym | 128 | Elymaic | 埃利迈文 | Elymaic | 从右至左书写 | 12.0 | 23 | 古代/历史文字 |
Ethi | 430 | Ethiopic (Geʻez) | 吉兹字母 | Ethiopic | 从左至右 | 3.0 | 495 | |
Geok | 241 | Khutsuri (Asomtavruli and Nuskhuri) | 乔治亚文小草体 | Georgian | 从左至右 | Unicode groups Geok and Geor together as "Georgian" | ||
Geor | 240 | Georgian (Mkhedruli and Mtavruli) | 乔治亚文骑士体 | Georgian | 从左至右 | 1.0 | 173 | For Unicode, see also Geok |
Glag | 225 | Glagolitic | 格拉哥里字母 | Glagolitic | 从左至右 | 4.1 | 132 | 古代/历史文字 |
Gong | 312 | Gunjala Gondi | 贡贾拉贡德文字 | Gunjala Gondi | 从左至右 | 11.0 | 63 | |
Gonm | 313 | Masaram Gondi | 马萨拉姆贡德文字 | Masaram Gondi | 从左至右 | 10.0 | 75 | |
Goth | 206 | Gothic | 哥德字母 | Gothic | 从左至右 | 3.1 | 27 | 古代/历史文字 |
Gran | 343 | Grantha | 古兰塔文 | Grantha | 从左至右 | 7.0 | 85 | 古代/历史文字 |
Grek | 200 | Greek | 希腊字母 | Greek | 从左至右 | 1.0 | 518 | Sometimes expressed as boustrophedon (mirroring of alternate lines rather than purely left-to-right) |
Gujr | 320 | Gujarati | 古吉拉特文 | Gujarati | 从左至右 | 1.0 | 91 | |
Guru | 310 | Gurmukhi | 古木基文 | Gurmukhi | 从左至右 | 1.0 | 80 | |
Hanb | 503 | Han with Bopomofo (alias for Han + Bopomofo) | 汉字(带注音符号) | 直书从右至左、从左至右 | See Hani, Bopo | |||
Hang | 286 | Hangul (Hangŭl, Hangeul) | 谚文 | Hangul | 从左至右、直书从右至左 | 1.0 | 11,739 | Hangul syllables relocated in 2.0 |
Hani | 500 | Han (Hanzi, Kanji, Hanja) | 汉字(中文汉字、日本汉字、韩国汉字) | Han | 从左至右、直书从右至左 | 1.0 | 89,233 | |
Hano | 371 | Hanunoo (Hanunóo) | 哈努诺字母 | Hanunoo | 从左至右、从下至上 | 3.2 | 21 | |
Hans | 501 | Han (Simplified variant) | 简体中文 | 从左至右 | Subset Hani | |||
Hant | 502 | Han (Traditional variant) | 繁体中文 | 从左至右 | Subset Hani | |||
Hatr | 127 | Hatran | 哈特拉文 | Hatran | 从右至左书写 | 8.0 | 26 | 古代/历史文字 |
Hebr | 125 | Hebrew | 希伯来文 | Hebrew | 从右至左书写 | 1.0 | 134 | |
Hira | 410 | Hiragana | 平假名 | Hiragana | 直书从右至左、从左至右 | 1.0 | 379 | |
Hluw | 080 | Anatolian Hieroglyphs (Luwian Hieroglyphs, Hittite Hieroglyphs) | 安纳托利亚象形文字 | Anatolian Hieroglyphs | 从左至右 | 8.0 | 583 | 古代/历史文字 |
Hmng | 450 | Pahawh Hmong | 救世苗文 | Pahawh Hmong | 从左至右 | 7.0 | 127 | |
Hmnp | 451 | Nyiakeng Puachue Hmong | 创世纪苗文 | Nyiakeng Puachue Hmong | 从左至右 | 12.0 | 71 | |
Hrkt | 412 | Japanese syllabaries (alias for Hiragana + Katakana) | 假名 | Katakana or Hiragana | 直书从右至左、从左至右 | See Hira, Kana | ||
Hung | 176 | Old Hungarian (Hungarian Runic) | 古匈牙利字母 | Old Hungarian | 从右至左书写 | 8.0 | 108 | 古代/历史文字 |
Inds | 610 | Indus (Harappan) | 印度河文字 | 从右至左书写、牛耕式转行书写法 | 未被Unicode收录, proposal in initial/exploratory stage[6] | |||
Ital | 210 | Old Italic (Etruscan, Oscan, etc.) | 古意大利字母 | Old Italic | 从右至左书写、从左至右 | 3.1 | 39 | 古代/历史文字 |
Jamo | 284 | Jamo (alias for Jamo subset of Hangul) | 韩语字母 | Subset Hang | ||||
Java | 361 | Javanese | 爪哇字母 | Javanese | 从左至右 | 5.2 | 90 | |
Jpan | 413 | Japanese (alias for Han + Hiragana + Katakana) | 日文文字 | 直书从右至左、从左至右 | See Hani, Hira and Kana | |||
Jurc | 510 | Jurchen | 女真文 | 从左至右 | 未被Unicode收录 | |||
Kali | 357 | Kayah Li | 克耶里字母 | Kayah Li | 从左至右 | 5.1 | 47 | |
Kana | 411 | Katakana | 片假名 | Katakana | 直书从右至左、从左至右 | 1.0 | 304 | |
Khar | 305 | Kharoshthi | 佉卢文 | Kharoshthi | 从右至左书写 | 4.1 | 68 | 古代/历史文字 |
Khmr | 355 | Khmer | 高棉文 | Khmer | 从左至右 | 3.0 | 146 | |
Khoj | 322 | Khojki | 可吉文 | Khojki | 从左至右 | 7.0 | 62 | 古代/历史文字 |
Kitl | 505 | Khitan large script | 契丹大字 | 从左至右 | 未被Unicode收录 | |||
Kits | 288 | Khitan small script | 契丹小字 | Khitan Small Script | 直书从右至左 | |||
Knda | 345 | Kannada | 卡纳达文 | Kannada | 从左至右 | 1.0 | 89 | |
Kore | 287 | Korean (alias for Hangul + Han) | 韩汉混用文 | 从上至下、从左至右、从右至左书写 | See Hani and Hang | |||
Kpel | 436 | Kpelle | 克培列文 | 从左至右 | 未被Unicode收录, proposal in initial/exploratory stage[6] | |||
Kthi | 317 | Kaithi | 凯提文 | Kaithi | 从左至右 | 5.2 | 67 | 古代/历史文字 |
Lana | 351 | Tai Tham (Lanna) | 老傣仂文 | Tai Tham | 从左至右 | 5.2 | 127 | |
Laoo | 356 | Lao | 寮文 | Lao | 从左至右 | 1.0 | 82 | |
Latf | 217 | Latin (Fraktur variant) | 德文尖角体 | 从左至右 | Typographic variant of Latin | |||
Latg | 216 | Latin (Gaelic variant) | 盖尔体 | 从左至右 | Typographic variant of Latin | |||
Latn | 215 | Latin | 拉丁字母 | Latin | 从左至右 | 1.0 | 1,366 | See Latin script in Unicode |
Leke | 364 | Leke | 勒克文 | 从左至右 | 未被Unicode收录 | |||
Lepc | 335 | Lepcha (Róng) | 绒巴文 | Lepcha | 从左至右 | 5.1 | 74 | |
Limb | 336 | Limbu | 林布文 | Limbu | 从左至右 | 4.0 | 68 | |
Lina | 400 | Linear A | 线形文字A | Linear A | 从左至右 | 7.0 | 341 | 古代/历史文字 |
Linb | 401 | Linear B | 线形文字B | Linear B | 从左至右 | 4.0 | 211 | 古代/历史文字 |
Lisu | 399 | Lisu (Fraser) | 老傈僳文 | Lisu | 从左至右 | 5.2 | 48 | |
Loma | 437 | Loma | 洛玛文 | 从左至右 | 未被Unicode收录, proposal in initial/exploratory stage[6] | |||
Lyci | 202 | Lycian | 吕基亚字母 | Lycian | 从左至右 | 5.1 | 29 | 古代/历史文字 |
Lydi | 116 | Lydian | 吕底亚字母 | Lydian | 从右至左书写 | 5.1 | 27 | 古代/历史文字 |
Mahj | 314 | Mahajani | 马哈佳尼文 | Mahajani | 从左至右 | 7.0 | 39 | 古代/历史文字 |
Maka | 366 | Makasar | 望加锡文 | Makasar | 从左至右 | 11.0 | 25 | 古代/历史文字 |
Mand | 140 | Mandaic, Mandaean | 曼达安字母 | Mandaic | 从右至左书写 | 6.0 | 29 | |
Mani | 139 | Manichaean | 摩尼字母 | Manichaean | 从右至左书写 | 7.0 | 51 | 古代/历史文字 |
Marc | 332 | Marchen | 象雄文 | Marchen | 从左至右 | 9.0 | 68 | 古代/历史文字 |
Maya | 090 | Mayan hieroglyphs | 玛雅文字 | 从上至下 | 未被Unicode收录 | |||
Medf | 265 | Medefaidrin (Oberi Okaime, Oberi Ɔkaimɛ) | 梅德法伊德林文 | Medefaidrin | 从左至右 | 11.0 | 91 | |
Mend | 438 | Mende Kikakui | 门德基卡库文 | Mende Kikakui | 从右至左书写 | 7.0 | 213 | |
Merc | 101 | Meroitic Cursive | 麦罗埃文草书体 | Meroitic Cursive | 从右至左书写 | 6.1 | 90 | 古代/历史文字 |
Mero | 100 | Meroitic Hieroglyphs | 麦罗埃文圣书体 | Meroitic Hieroglyphs | 从右至左书写 | 6.1 | 32 | 古代/历史文字 |
Mlym | 347 | Malayalam | 马拉雅拉姆文 | Malayalam | 从左至右 | 1.0 | 117 | |
Modi | 324 | Modi, Moḍī | 莫迪文 | Modi | 从左至右 | 7.0 | 79 | 古代/历史文字 |
Mong | 145 | Mongolian | 蒙古文 | Mongolian | 从左至右垂直、从左至右 | 3.0 | 167 | Includes Clear, Manchu scripts |
Moon | 218 | Moon (Moon code, Moon script, Moon type) | 穆恩字母 | 从左至右 | 未被Unicode收录, proposal in initial/exploratory stage[6] | |||
Mroo | 264 | Mro, Mru | 默禄文 | Mro | 从左至右 | 7.0 | 43 | |
Mtei | 337 | Meitei Mayek (Meithei, Meetei) | 梅泰文 | Meetei Mayek | 从左至右 | 5.2 | 79 | |
Mult | 323 | Multani | 穆尔塔尼文 | Multani | 从左至右 | 8.0 | 38 | 古代/历史文字 |
Mymr | 350 | Myanmar (Burmese) | 缅文 | Myanmar | 从左至右 | 3.0 | 223 | |
Nand | 311 | Nandinagari | 南迪城文 | Nandinagari | 从左至右 | 12.0 | 65 | 古代/历史文字 |
Narb | 106 | Old North Arabian (Ancient North Arabian) | 古北阿拉伯字母 | Old North Arabian | 从右至左书写 | 7.0 | 32 | 古代/历史文字 |
Nbat | 159 | Nabataean | 纳巴泰字母 | Nabataean | 从右至左书写 | 7.0 | 40 | 古代/历史文字 |
Newa | 333 | Newa, Newar, Newari, Nepāla lipi | 普拉卡利特文 | Newa | 从左至右 | 9.0 | 94 | |
Nkdb | 085 | Naxi Dongba (na²¹ɕi³³ to³³ba²¹, Nakhi Tomba) | 东巴文 | 从左至右 | 未被Unicode收录 | |||
Nkgb | 420 | Nakhi Geba (na²¹ɕi³³ gʌ²¹ba²¹, 'Na-'Khi ²Ggŏ-¹baw, Nakhi Geba) | 哥巴文 | 从左至右 | 未被Unicode收录, proposal in initial/exploratory stage[6] | |||
Nkoo | 165 | N’Ko, N'Ko | 西非书面文字 | NKo | 从右至左书写 | 5.0 | 62 | |
Nshu | 499 | Nüshu | 女书 | Nushu | 直书从右至左 | 10.0 | 397 | |
Ogam | 212 | Ogham | 欧甘字母 | Ogham | 从下至上、从左至右 | 3.0 | 29 | 古代/历史文字 |
Olck | 261 | Ol Chiki (Ol Cemet', Ol, Santali) | 桑塔利文 | Ol Chiki | 从左至右 | 5.1 | 48 | |
Orkh | 175 | Old Turkic, Orkhon Runic | 古突厥文 | Old Turkic | 从右至左书写 | 5.2 | 73 | 古代/历史文字 |
Orya | 327 | Oriya (Odia) | 奥里亚文 | Oriya | 从左至右 | 1.0 | 90 | |
Osge | 219 | Osage | 欧塞奇字母 | Osage | 从左至右 | 9.0 | 72 | |
Osma | 260 | Osmanya | 奥斯曼亚字母 | Osmanya | 从左至右 | 4.0 | 40 | |
Palm | 126 | Palmyrene | 帕尔迈拉字母 | Palmyrene | 从右至左书写 | 7.0 | 32 | 古代/历史文字 |
Pauc | 263 | Pau Cin Hau | 包钦豪文 | Pau Cin Hau | 从左至右 | 7.0 | 57 | |
Perm | 227 | Old Permic | 古彼尔姆文 | Old Permic | 从左至右 | 7.0 | 43 | 古代/历史文字 |
Phag | 331 | Phags-pa | 八思巴字 | Phags-pa | 从左至右垂直 | 5.0 | 56 | 古代/历史文字 |
Phli | 131 | Inscriptional Pahlavi | 碑刻巴列维文 | Inscriptional Pahlavi | 从右至左书写 | 5.2 | 27 | 古代/历史文字 |
Phlp | 132 | Psalter Pahlavi | 诗篇巴列维文 | Psalter Pahlavi | 从右至左书写 | 7.0 | 29 | 古代/历史文字 |
Phlv | 133 | Book Pahlavi | 书本巴列维文 | 从右至左书写 | 未被Unicode收录 | |||
Phnx | 115 | Phoenician | 音标 | Phoenician | 从右至左书写 | 5.0 | 29 | 古代/历史文字 |
Piqd | 293 | Klingon (KLI pIqaD) | 克林贡文 | 从左至右 | Rejected for inclusion in the Unicode Standard[8][9] | |||
Plrd | 282 | Miao (Pollard) | 柏格理苗文 | Miao | 从左至右 | 6.1 | 149 | |
Prti | 130 | Inscriptional Parthian | 碑刻帕提亚文 | Inscriptional Parthian | 从右至左书写 | 5.2 | 30 | 古代/历史文字 |
Qaaa | 900 | Reserved for private use (start) | 私人使用区(开始) | 未被Unicode收录 | ||||
Qaai | 908 | (Private use) | (私人用途) | 未被Unicode收录 (Before version 5.2, this was used instead of Zinh) | ||||
Qabx | 949 | Reserved for private use (end) | 私人使用区(结束) | 未被Unicode收录 | ||||
Rjng | 363 | Rejang (Redjang, Kaganga) | 勒姜字母 | Rejang | 从左至右 | 5.1 | 37 | |
Rohg | 167 | Hanifi Rohingya | 哈乃斐罗兴亚文字 | Hanifi Rohingya | 从右至左书写 | 11.0 | 50 | |
Roro | 620 | Rongorongo | 朗格朗格 | 牛耕式转行书写法 | 未被Unicode收录, proposal in initial/exploratory stage[6] | |||
Runr | 211 | Runic | 卢恩字母 | Runic | 从左至右、牛耕式转行书写法 | 3.0 | 86 | 古代/历史文字 |
Samr | 123 | Samaritan | 撒玛利亚字母 | Samaritan | 从右至左书写、从上至下 | 5.2 | 61 | |
Sara | 292 | Sarati | 沙拉堤文字 | 从上至下、从左至右、从右至左书写、牛耕式转行书写法、从左至右垂直 | 未被Unicode收录 | |||
Sarb | 105 | Old South Arabian | 古南阿拉伯字母 | Old South Arabian | 从右至左书写 | 5.2 | 32 | 古代/历史文字 |
Saur | 344 | Saurashtra | 索拉什特拉文 | Saurashtra | 从左至右 | 5.1 | 82 | |
Sgnw | 095 | SignWriting | 手语书写符号 | SignWriting | 从左至右垂直 | 8.0 | 672 | |
Shaw | 281 | Shavian (Shaw) | 萧伯纳字母 | Shavian | 从左至右 | 4.0 | 48 | |
Shrd | 319 | Sharada, Śāradā | 夏拉达文 | Sharada | 从左至右 | 6.1 | 94 | |
Shui | 530 | Shuishu | 水书 | 直书从右至左 | 未被Unicode收录 | |||
Sidd | 302 | Siddham, Siddhaṃ, Siddhamātṛkā | 悉昙文字 | Siddham | 从左至右 | 7.0 | 92 | 古代/历史文字 |
Sind | 318 | Khudawadi, Sindhi | 库达巴蒂文 | Khudawadi | 从左至右 | 7.0 | 69 | |
Sinh | 348 | Sinhala | 僧伽罗文 | Sinhala | 从左至右 | 3.0 | 110 | |
Sogd | 141 | Sogdian | 粟特字母 | Sogdian | 纵书与横书、从上至下 | 11.0 | 42 | 古代/历史文字 |
Sogo | 142 | Old Sogdian | 粟特字母 | Old Sogdian | 从右至左书写 | 11.0 | 40 | 古代/历史文字 |
Sora | 398 | Sora Sompeng | 索拉僧平字母 | Sora Sompeng | 从左至右 | 6.1 | 35 | |
Soyo | 329 | Soyombo | 索永布文字 | Soyombo | 从左至右 | 10.0 | 83 | 古代/历史文字 |
Sund | 362 | Sundanese | 巽他字母 | Sundanese | 从左至右 | 5.1 | 72 | |
Sylo | 316 | Syloti Nagri | 锡尔赫特城文 | Syloti Nagri | 从左至右 | 4.1 | 44 | |
Syrc | 135 | Syriac | 叙利亚字母 | Syriac | 从右至左书写 | 3.0 | 88 | |
Syre | 138 | Syriac (Estrangelo variant) | 叙利亚字母古典体 | 从右至左书写 | 叙利亚字母的印刷变体 | |||
Syrj | 137 | Syriac (Western variant) | 叙利亚字母西部变体 | 从右至左书写 | 叙利亚字母的印刷变体 | |||
Syrn | 136 | Syriac (Eastern variant) | 叙利亚字母东部变体 | 从右至左书写 | 叙利亚字母的印刷变体 | |||
Tagb | 373 | Tagbanwa | 塔格巴努亚文 | Tagbanwa | 从左至右 | 3.2 | 18 | |
Takr | 321 | Takri, Ṭākrī, Ṭāṅkrī | 塔克里文 | Takri | 从左至右 | 6.1 | 67 | |
Tale | 353 | Tai Le | 傣仂文 | Tai Le | 从左至右 | 4.0 | 35 | |
Talu | 354 | New Tai Lue | 新傣仂文 | New Tai Lue | 从左至右 | 4.1 | 83 | |
Taml | 346 | Tamil | 泰米尔文 | Tamil | 从左至右 | 1.0 | 123 | |
Tang | 520 | Tangut | 西夏文 | Tangut | 直书从右至左、从左至右 | 9.0 | 6,892 | 古代/历史文字 |
Tavt | 359 | Tai Viet | 傣担文 | Tai Viet | 从左至右 | 5.2 | 72 | |
Telu | 340 | Telugu | 泰卢固文 | Telugu | 从左至右 | 1.0 | 98 | |
Teng | 290 | Tengwar | 滕格瓦字母 | 从左至右 | 未被Unicode收录 | |||
Tfng | 120 | Tifinagh (Berber) | 提非纳文 | Tifinagh | 从左至右、从右至左书写、从上至下、从下至上 | 4.1 | 59 | |
Tglg | 370 | Tagalog (Baybayin, Alibata) | 贝贝因文 | Tagalog | 从左至右 | 3.2 | 20 | |
Thaa | 170 | Thaana | 它拿字母 | Thaana | 从右至左书写 | 3.0 | 50 | |
Thai | 352 | Thai | 泰文 | Thai | 从左至右 | 1.0 | 86 | |
Tibt | 330 | Tibetan | 藏文 | Tibetan | 从左至右 | 2.0 | 207 | Added in 1.0, removed in 1.1 and reintroduced in 2.0 |
Tirh | 326 | Tirhuta | 底罗仆多文 | Tirhuta | 从左至右 | 14.0 | 82 | |
Tasa | 书写系统 | 14.0 | 89 | |||||
Toto | 294 | 书写系统 | Toto | 从左至右 | 14.0 | 31 | ||
Ugar | 040 | Ugaritic | 乌加里特字母 | Ugaritic | 从左至右 | 4.0 | 31 | 古代/历史文字 |
Vaii | 470 | Vai | 瓦伊文 | Vai | 从左至右 | 5.1 | 300 | |
Visp | 280 | Visible Speech | 可视语言 | 从左至右 | 未被Unicode收录 | |||
Wara | 262 | Warang Citi (Varang Kshiti) | 瓦兰齐地文 | Warang Citi | 从左至右 | 7.0 | 84 | |
Wcho | 283 | Wancho | 文乔字母 | Wancho | 从左至右 | 12.0 | 59 | |
Wole | 480 | Woleai | 沃莱艾文 | 从左至右 | 未被Unicode收录, proposal in initial/exploratory stage[6] | |||
Xpeo | 030 | Old Persian | 古波斯楔形文字 | Old Persian | 从左至右 | 4.1 | 50 | 古代/历史文字 |
Xsux | 020 | Cuneiform, Sumero-Akkadian | 楔形文字 | Cuneiform | 从左至右 | 5.0 | 1,234 | 古代/历史文字 |
Yezi | 192 | Yezidi | 雅兹迪文 | Yezidi | 从右至左书写 | 未被Unicode收录 | ||
Yiii | 460 | Yi | 彝文 | Yi | 从左至右 | 3.0 | 1,220 | |
Zanb | 339 | Zanabazar Square (Zanabazarin Dörböljin Useg, Xewtee Dörböljin Bicig, Horizontal Square Script) | 札那巴札尔方形字母 | Zanabazar Square | 从左至右 | 10.0 | 72 | 古代/历史文字 |
Zinh | 994 | Code for inherited script | 继承文字 | Inherited | 10.0 | 571 | ||
Zmth | 995 | Mathematical notation | 数学符号 | Not a 'script' in Unicode | ||||
Zsym | 996 | Symbols | 符号 | Not a 'script' in Unicode | ||||
Zsye | 993 | Symbols (emoji variant) | 颜文字 | Not a 'script' in Unicode | ||||
Zxxx | 997 | Code for unwritten documents | 不成文 | Not a 'script' in Unicode | ||||
Zyyy | 998 | Code for undetermined script | 未定 | Common | 7,805 | |||
Zzzz | 999 | Code for uncoded script | 未编码 | Unknown | 976,118 | All other code points | ||
附注
|
Unicode中缺少的文字
[编辑]随着Unicode的每个新版本发布,国际字符代码中都添加了新的书写系统。根据加州大学伯克利分校的语言学家Deborah Anderson博士的一份声明,Unicode中尚有100多种书写系统未包含。
根据德国美因茨应用科学大学、法国ANRT Nancy和美国加州大学伯克利分校的项目“Missing Scripts”清单,根据目前的研究状况(2022年1月),人类已知的书写系统有294种。其中131个尚未以Unicode编码,即尚不能在计算机或手机上使用。
参见
[编辑]参考资料
[编辑]- ^ Glossary. unicode.org. [2022-10-24]. (原始内容存档于2015-12-26).
- ^ Unicode Character Database: Scripts. unicode.org. [2022-10-24]. (原始内容存档于2022-10-19).
- ^ Chapter 14: Additional Ancient and Historic Scripts (PDF). Mountain View, CA: Unicode, Inc. September 2022 [2022-10-24]. ISBN 978-1-936213-32-0. (原始内容存档 (PDF)于2022-10-07).
- ^ https://www.unicode.org/roadmaps/ (页面存档备份,存于互联网档案馆) Roadmaps to Unicode
- ^ UAX #24: Unicode Script Property. www.unicode.org. [2022-10-24]. (原始内容存档于2022-10-05).
- ^ 6.0 6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8 Proposed New Scripts. Unicode Consortium. 2018-05-25 [2018-09-12].
- ^ Roadmap to the SMP. Unicode Consortium. 2018-08-08 [2018-09-12].
- ^ Michael Everson. Proposal to encode Klingon in Plane 1 of ISO/IEC 10646-2. 1997-09-18.
- ^ The Unicode Consortium. Approved Minutes of the UTC 87 / L2 184 Joint Meeting. 2001-08-14.
外部链接
[编辑]- Script Encoding Initiative (页面存档备份,存于互联网档案馆),美国加州大学伯克利分校的一个项目,致力于让更多的文字包含在Unicode标准中。
- The World's Writing Systems (页面存档备份,存于互联网档案馆),所有 94种已知书写系统的概述,每个系统都有一个印刷参考字形及其Unicode状态。