维基百科讨论:中文繁简体对照表
注意:此网页已不再维护。有关不同词语的转换错误,请到Wikipedia:繁简体转换请求进行讨论。其他讨论请到Wikipedia talk:繁简处理。
哇,现在演化成这个样子了
[编辑]哇,现在演化成这个样子需要分类了,难得我已经收集了基础用字约 1953 个了,该怎么办呢?我先贴上去好了。
在台湾是没有人懂汉语拼音的
[编辑]- err... 有些字重复了。另外,事实上在台湾是没有人懂汉语拼音的,似乎用汉语拼音的方式来分类,会造成某些想找对照的人摸不着头脑。或许该找另一个方式来分类会比较好。 --Rickz 07:10 2004年4月11日 (UTC)
用不着分类呀
[编辑]- 可是,依繁简转换程式来看,用不着分类呀,重点是把对应关系找出来,然后将使用者 POST 出去的资料转换,这样就可以了,我举个例子来说好了。
例子:假设使用者的送出资料之后,储存使用者送出的资料的变数名称叫做 $data,那么这时候为了同时要储存两种版本的页面,要先复制变数,令 $data_2 = $data。 接着,我们使 $data 为简体版本,$data2 为繁体版本,利用我们搜集到的繁简中文对照,将 $data 中的所有可能出现的繁体字转换为简体字;likewise,将 $data2 中的所有可能出现的简体字转换为繁体字,最后在同时储存,这样就可以啦。
但是如果是要另外做资料或文化用途的话,分类当然是必要的啦(不管是怎么样的分类),而且相当必要。Dowba 11:55 2004年4月11日 (UTC)
为什么要分类及我的一些设想
[编辑]首先说说我为什么要分类:因为我意识到繁简转换是一个复杂的问题,虽然大部分繁简体字之间确实可以一一对映,但也有相当数量的繁简体字之间不是简单的一一对映,所以我想作一个细致的调查。下面先举几个例子说明繁简转换的复杂。
就拿“台湾”的“台”字举例来说,简体的“台”字对应着繁体“台”、“台”和“台”,如果“台湾”一词在台湾确实是写作“台湾”而非“台湾”的话,那么简体的“台”字对应着四个繁体字“台”、“台”、“台”和“台”。另一方面,一个繁体字也可能映射为多个简体字,具体取决于这个字的含义,比如“干、干、干”这三个字,作“乾坤”的“干”讲时,被简化为“干”,但作“干湿”的“干”字讲时被简化为“干”字。而“干”字本来在繁体中还有它自己的意思,如“干预”,这样的话,简化的“干”字映射为繁体字时也是一对多的,它既可以映射为“干”字,还可以保持不变为“干”字。
从上面的例子我们可以看到,我们必须整理细分到同一个字的不同含义,才能正确转换繁简。同时,还有异体字的问题,比如“干、干”三个是“干”的异体字。所有这些,都需要一个细致的调查。然后,我们还有对每一个字给出它们的unicode编码和utf-8编码。
对于我们分类的方案,我觉得是可以讨论的。如果不采用汉语拼音,那么还可以采用部首检字法。用部首检字法还有一个好处,就是Unicode编码本身是采用部首检字法来给字集排序的。
这里有一个难点,就是让计算机确定一个字在某个上下文的具体含义,这是非常困难的,但也是高质量繁简转换所必须的。我想我们可以建立一个词典,用最大匹配法匹配出一个词(这种技术在大陆叫做“分词”),然后再在词的基础上作繁简转化。比如简体的“台”字化为繁体时大概按下面的方式进行:通过分词确定出“台”字所在的词,如果是“台州”就转化为“台州”,如果是“台榭”就转化为“台榭”,如果是“梳妆台”就转化为“梳妆台”,如果是“台风”就转化为“台风”,如果是“台湾”就转化为“台湾”,等等。这个方案不能保证完全正确,但我想足以应付大多数情况。
我设想期望中的程序(程式)应该具备下述特点:
- 应该可以进行繁->简和简->繁的双重转换
- 必须注意到这样的情况:
- 在简体版本中,我们偶然但必须引用一个字的繁体,比如在维基字典中介绍“台”时,必须说明它是“台”、“台”和“台”的简化。
- 在繁体版本中,我们偶然但必须引用一个字的简体,比如在维基字典中介绍“台”时,必须说明它的简体字是“台”。
- 针对两种上面的情况,我们必须提供手段,表明一个字不作繁简转换。我建议采用C语言中常用的手段,加一个反斜线。比如:用“\台”表明“台”字不作简化,或者“\台”表明“台”字不作繁化。
- 某些上下文(不论是简体还是繁体版本)中,我们很难让计算机判断出某字的具体含义,我们不得不手工指明如何繁简转换。我建议采用两道反斜线的方法。比如“\\台台”说明一个字在简体版用“台”,在繁体版用“台”。
- 程序(程式)不用PHP写,而是用C编程语言写成,然后再在PHP脚本中用dl引入C的库函数。这样可以提高繁简转换的效率。
- 繁简转换需要的词典放在MediaWiki名空间维护。在服务器(服务器)启动的时候由PHP读入词典,然后生成繁简转换的运行时环境(Runtime environment),再在此基础上进行繁简转换。
- 词典更新后,不用重启服务器(服务器),运行时结构可以得到自动更新。
--Mountain(Talk) 20:03 2004年4月11日 (UTC)
- 嗯,这样一来势必得花更大的工夫,我们有功力如此深厚的的 program designer 吗? 61.219.126.137 06:10 2004年4月12日 (UTC) (Dowba)
我觉得应该把词语作为转换的单位
[编辑]单个字当然是要转换的,否则有些人看不懂,台湾的人应该看不大懂简体中文对吧? 然而,台湾和大陆的许多词语也都是不一样的,不是把字转为简体(繁体)大家就看得懂。比如,就计算机的某些词汇 硬盘(硬盘) 打印机(打印机) 程序(程式) 等等,在转换的同时也应该一并转换,这样大家才看得舒畅啊。
关于用字排列的建议
[编辑]目前的用字还没排序,如果用汉语拼音,台湾一票人不懂,用注音或通用拼音,大陆、星马也看不懂。建议可以参考台湾人列表的方式,由于注音为37个,而汉语有26个,因此以注音为底,汉语搭配的方式,应该可以解决排字问题。(用笔画方式,由于简繁字体笔画笔顺不同,可能引起更大困惑)
又如果不知道该字发音,读者将该字剪下,直接贴上浏览器的搜寻功能即可。 218.172.203.67 14:35 2004年5月27日 (UTC)封印
还应该把繁简体相同的汉字和繁简体不同的汉字区分开来。-- ──★── 2012年5月5日 (六) 12:17 (UTC)