维基百科讨论:中文繁简体对照表
注意:此网页已不再维护。有关不同词语的转换错误,请到Wikipedia:繁简体转换请求进行讨论。其他讨论请到Wikipedia talk:繁简处理。
哇,現在演化成這個樣子了
[编辑]哇,現在演化成這個樣子需要分類了,難得我已經收集了基礎用字約 1953 個了,該怎麼辦呢?我先貼上去好了。
在台灣是沒有人懂漢語拼音的
[编辑]- err... 有些字重複了。另外,事實上在台灣是沒有人懂漢語拼音的,似乎用漢語拼音的方式來分類,會造成某些想找對照的人摸不著頭腦。或許該找另一個方式來分類會比較好。 --Rickz 07:10 2004年4月11日 (UTC)
用不著分類呀
[编辑]- 可是,依繁簡轉換程式來看,用不著分類呀,重點是把對應關係找出來,然後將使用者 POST 出去的資料轉換,這樣就可以了,我舉個例子來說好了。
例子:假設使用者的送出資料之後,儲存使用者送出的資料的變數名稱叫做 $data,那麼這時候為了同時要儲存兩種版本的頁面,要先複製變數,令 $data_2 = $data。 接著,我們使 $data 為簡體版本,$data2 為繁體版本,利用我們蒐集到的繁簡中文對照,將 $data 中的所有可能出現的繁體字轉換為簡體字;likewise,將 $data2 中的所有可能出現的簡體字轉換為繁體字,最後在同時儲存,這樣就可以啦。
但是如果是要另外做資料或文化用途的話,分類當然是必要的啦(不管是怎麼樣的分類),而且相當必要。Dowba 11:55 2004年4月11日 (UTC)
为什么要分类及我的一些设想
[编辑]首先说说我为什么要分类:因为我意识到繁简转换是一个复杂的问题,虽然大部分繁简体字之间确实可以一一对映,但也有相当数量的繁简体字之间不是简单的一一对映,所以我想作一个细致的调查。下面先举几个例子说明繁简转换的复杂。
就拿“台湾”的“台”字举例来说,简体的“台”字对应着繁体“臺”、“檯”和“颱”,如果“台湾”一词在台湾确实是写作“台灣”而非“臺灣”的话,那么简体的“台”字对应着四个繁体字“台”、“臺”、“檯”和“颱”。另一方面,一个繁体字也可能映射为多个简体字,具体取决于这个字的含义,比如“乾、乹、亁”这三个字,作“乾坤”的“乾”讲时,被简化为“乾”,但作“乾湿”的“乾”字讲时被简化为“干”字。而“干”字本来在繁体中还有它自己的意思,如“干预”,这样的话,简化的“干”字映射为繁体字时也是一对多的,它既可以映射为“乾”字,还可以保持不变为“干”字。
从上面的例子我们可以看到,我们必须整理细分到同一个字的不同含义,才能正确转换繁简。同时,还有异体字的问题,比如“乹、亁”三个是“乾”的异体字。所有这些,都需要一个细致的调查。然后,我们还有对每一个字给出它们的unicode编码和utf-8编码。
对于我们分类的方案,我觉得是可以讨论的。如果不采用汉语拼音,那么还可以采用部首检字法。用部首检字法还有一个好处,就是Unicode编码本身是采用部首检字法来给字集排序的。
这里有一个难点,就是让计算机确定一个字在某个上下文的具体含义,这是非常困难的,但也是高质量繁简转换所必须的。我想我们可以建立一个词典,用最大匹配法匹配出一个词(这种技术在大陆叫做“分词”),然后再在词的基础上作繁简转化。比如简体的“台”字化为繁体时大概按下面的方式进行:通过分词确定出“台”字所在的词,如果是“台州”就转化为“台州”,如果是“台榭”就转化为“臺榭”,如果是“梳妆台”就转化为“梳妝檯”,如果是“台风”就转化为“颱風”,如果是“台湾”就转化为“台灣”,等等。这个方案不能保证完全正确,但我想足以应付大多数情况。
我设想期望中的程序(程式)应该具备下述特点:
- 应该可以进行繁->简和简->繁的双重转换
- 必须注意到这样的情况:
- 在简体版本中,我们偶然但必须引用一个字的繁体,比如在维基字典中介绍“台”时,必须说明它是“臺”、“檯”和“颱”的简化。
- 在繁体版本中,我们偶然但必须引用一个字的简体,比如在维基字典中介绍“臺”时,必须说明它的简体字是“台”。
- 针对两种上面的情况,我们必须提供手段,表明一个字不作繁简转换。我建议采用C语言中常用的手段,加一个反斜线。比如:用“\颱”表明“颱”字不作简化,或者“\台”表明“台”字不作繁化。
- 某些上下文(不论是简体还是繁体版本)中,我们很难让计算机判断出某字的具体含义,我们不得不手工指明如何繁简转换。我建议采用两道反斜线的方法。比如“\\台臺”说明一个字在简体版用“台”,在繁体版用“臺”。
- 程序(程式)不用PHP写,而是用C编程语言写成,然后再在PHP脚本中用dl引入C的库函数。这样可以提高繁简转换的效率。
- 繁简转换需要的词典放在MediaWiki名空间维护。在服务器(伺服器)启动的时候由PHP读入词典,然后生成繁简转换的运行时环境(Runtime environment),再在此基础上进行繁简转换。
- 词典更新后,不用重启服务器(伺服器),运行时结构可以得到自动更新。
--Mountain(Talk) 20:03 2004年4月11日 (UTC)
- 嗯,這樣一來勢必得花更大的工夫,我們有功力如此深厚的的 program designer 嗎? 61.219.126.137 06:10 2004年4月12日 (UTC) (Dowba)
我觉得应该把词语作为转换的单位
[编辑]单个字当然是要转换的,否则有些人看不懂,台湾的人应该看不大懂简体中文对吧? 然而,台湾和大陆的许多词语也都是不一样的,不是把字转为简体(繁体)大家就看得懂。比如,就计算机的某些词汇 硬盘(硬碟) 打印机(印表機) 程序(程式) 等等,在转换的同时也应该一并转换,这样大家才看得舒畅啊。
關於用字排列的建議
[编辑]目前的用字還沒排序,如果用漢語拼音,臺灣一票人不懂,用注音或通用拼音,大陸、星馬也看不懂。建議可以參考台灣人列表的方式,由於注音為37個,而漢語有26個,因此以注音為底,漢語搭配的方式,應該可以解決排字問題。(用筆畫方式,由於簡繁字體筆畫筆順不同,可能引起更大困惑)
又如果不知道該字發音,讀者將該字剪下,直接貼上瀏覽器的搜尋功能即可。 218.172.203.67 14:35 2004年5月27日 (UTC)封印
还应该把繁简体相同的汉字和繁简体不同的汉字区分开来。-- ──★── 2012年5月5日 (六) 12:17 (UTC)