Wikipedia talk:繁简处理/档案5
本頁是以往討論的存檔。請勿編輯本頁。若您想發起新討論或重啟現有討論,請在當前討論頁進行。 |
关于语言代码的问题
目前我们使用的恐怕是 zh-CN 和 zh-TW,抛开政治问题不谈,这两个代码并没有很好的对应简体中文和繁体中文的概念。确切的说它们对应的是中国大陆中文和台湾中文。显然我们还有 zh-HK 香港中文,还有新加坡中文(抱歉我不记得其国家和地区代码了)。显然我们无力也绝无必要再产生两种语言变体的版本。
这里有个重要的提议,我们应该使用 zh-Hans 和 zh-Hant 来表示简体中文和繁体中文。并固守其本质意义:简体和繁体只是字体上的差别,从技术上说后者可以无损失的转换到前者。
这里有一个台湾人的繁简转换的程序,比较好用。線上繁簡網頁與文字轉換及校對區(Big5→GB/上海Mirror) -{R|http://artvine.com.tw/images/uu.htm}- 線上繁簡網頁與文字轉換及校對區(GB→Big5/上海Mirror)-{R|http://artvine.com.tw/images/uu2.htm}-
请参考我的文章:关于zh-Hans/zh-Hant的问题。
我们不应该把 zh-TW 和 zh-CN 的差别,特别是语义、语用上的差别(语法层面的差别虽然存在但比较小),等同于简体和繁体的差别!
除了技术问题之外,简体和繁体的互相对应和转换有几个重大的难点。我们必须考虑这些问题并作出抉择:
1. 词汇差异。这已经有太多例子。然而我要说的是,比相同概念用不同词来表示更头痛的问题是:用相同的词表示不同的概念。这在技术词汇领域尤其头大!(Todo:举例)但是显然此种情况实际上是 zh-TW 和 zh-CN 或者 zh-HK 的差别。如果我们只是要解决 zh-Hans 和 zh-Hant 的问题,则应该刨除或者暂且搁置它。 2. 繁体简体字混杂所产生的组合的可能是指数级的。 3. 简体如何反转成繁体。
. . 13:26 2004年3月17日 . . User:Hax
我來舉個簡單的科技用語差異:
analog 大陸方面译成模拟(擬),台灣方面譯成類比
simulation 大陸方面译成仿眞,台灣方面譯成模擬
Briston in Taiwan
外国人名跨语言链接的问题
我已经发现谢赫·艾哈迈德·亚辛转接到英文条目没有问题,但是从英语回到中文条目就不行了,相同的情况出现在马德里3·11爆炸案。应该是分隔点“·”导致的链接错误,如何解决? Cncs Talk 10:50 2004-03-23 UTC
- 在英文版裡用 ·來代替這個 middle dot. -- 石添小草 14:23 2004年3月28日 (UTC)
好久沒來了,現在情形如何? Dowba 11:29 2004年3月28日 (UTC)
我的一點小意見
我並不覺得繁體簡體之間的問題很大,美式英語和英國本土英語之間的差別其中包括寫法和特定名詞比中華民國和中國之間的差別大很多。在語言習慣和語法字形上面兩岸的中文並沒有很大的交流困難。現在統一用utf其實在同一葉面内的瀏覽已經沒有問題。如果是個別超級聯結有寫法上面的差異那可能就必須讓編撰者注意一下在編撰之前查詢是否有存在詞條,如果已經存在該詞條則不用重新編寫只需要在開頭增加入不同地區的不同稱謂就行了,而且也體現出了文化多樣性。專門編寫繁體或者簡體也許造成太大的精力浪費,不妨就按個人決定,繁體簡體愛用什麽就用什麽。比如上面的那個説明分別用繁體和簡體寫出我覺得就不是很必要,基本都是一樣的,也不可能有人看不懂簡體或者繁體,那麽就照編撰者決定,編者是用簡體那就用簡體,編者用繁體就用繁體。 你們認爲呢?自由建筑社 00:22 2004年4月1日 (UTC)
- 我個人也是認為混合編輯是個好方法,但就我而言,我的經驗是有一些「不大一樣」的簡體字獨立出現時我會看不懂,所以在閱讀方面會是一個障礙,有可能在瀏覽的時候需要一些幫助;另外,關於照編撰者的問題,這也不錯,但是有個很細的問題(我有這樣的經驗):創建條目時會不會不清楚到底這個條目在另外一個版本當中有沒有已經被創建過了呢?這是很麻煩的。所以要靠搜尋來解決,但是我們不確定 Google 的 database 究竟會不會耕著即時更新,這會造成很大的困擾,為什麼要關掉全文檢索的功能呢? Dowba 10:08 2004年4月1日 (UTC)
- 我想就是可以使用站内的检索,对于简体用户来说,输入繁体有些不方便,我想对于繁体用户输入简体也是同样的。而且正如Dowba所说,内部链接的问题不好解决。最好的解决方式就是繁简体自动转换--百无一用是书生 (Talk) 11:09 2004年4月1日 (UTC)
中文字收集和開始準備
基本上我已經收集了常用的幾個字了(約1900多個),在這裡:中文繁简体对照表,我想接下來應該就可以請程式設計師利用這些字進行翻譯。只要稍微解析那些字,個別做成陣列,然後翻譯,最後同時儲存兩個版本,這樣就可以了。
我們是不是可以請 Wikipedia的工作人員來做這些事呢?
从个人工作所得到的经验看,繁体和简体从单字上看是没有太多意义上的差别的,但组合成词语后就存在一些区别了:比如简体称打印机,繁体称印表机,打印和列印等,我曾一直想尝试收集这样的常见差异词汇,然后用程序直接互翻,难在这个表很难建立起来。
- 可是我覺得先把字翻譯成可以讓繁簡體用戶都看得懂,這樣一來可以解決90%以上的問題。內地和台灣的詞彙差異問題不嚴重,沒有像 English 和 American 之間的差異那麼大,都還是看得懂的。 Dowba 14:40 2004年4月17日 (UTC)
簡繁翻譯已鬧出不少笑話
現時使用microsoft word的簡繁翻譯已鬧出不少笑話,使用程序互翻是會引起很多問題. 我個人認為除了一些受爭議的項目外,其餘一般的項目無須針對不同地區的中文使用者製作不同版本
偶这里基本已经解决了
一共,简繁间有2034个不同的字 但是其中有大约10-20字,不是一一对应,而且有的是一对多,有的是多对一(简:繁),有的必须要求语境。 例如: 简体中“著作”,“看着办”是不同的字,繁体中相同。 乾隆、干活,繁体中都是一个“乾”字。(这个问题google就没解决,大家可以试一下,google里有“干隆”皇帝,哈哈。。。。)
繁体对简体一对多的情况略。
这种玩意虽然不多,可是它们就必须加上词组来判断。
关于同义词,我还是那个意见,别管它。否则工作量就相当于编撰现代口语词典,而不再是简繁对照了。
ccton
其实这个困饶你们很久的问题偶这里基本已经解决了。也满想帮助维基的,但是这里是GNU,偶也没考虑好如何提供帮助给你们。 最近会发布一个正式的采用该方案的系统。到时候过去看看,也许有点启发吧?
ccton
我赞成间繁混显
我赞成间繁混显,我的浏览器显示是没什么问题的,相信其他朋友的浏览器也不会有什么显示问题吧,呵呵。
创建者随意,修改者与创建者相同
在我认为,目前的简繁共存并不是太大的问题,只要内码相同,不会在浏览器上出现乱码就行。但我建议,创建者随意,后来的修改者最好使用与创建者相同的编码,即,创建者使用简体后来的修改者也使用简体。这个建议如何?
- 这一建议简直差透了,首先得找到对应编码的输入法,这就是一个大问题了!Grid 09:51 2004年5月5日 (UTC)
參數設置及繁簡體皮膚
維基百科英文版的參數設置還有日期格式(Date format),中文版無:
No preference January 15, 2001 15 January 2001 2001 January 15 2001-01-15
中文版的登記用戶進入參數設置後,可選擇頁面的“皮膚”:標準、懷舊、科隆香水藍。
目前頁面的皮膚只有簡體中文,可否增加繁體中文皮膚讓用戶選擇?
--Jusjih 07:29 2004年5月16日 (UTC)
- 管理員在翻譯UI用MediaWiki的時候,每個標題都只有一個頁。像MediaWiki:About就只有一個頁,上面寫著"关于"。
- 不同的皮膚其實都使(目前)用同個MediaWiki:About。不過,這個主意聽起來真的不錯,也許可以給個(情願的)電腦學家發揮。--Menchi (討論頁)Â 02:10 2004年5月20日 (UTC)
我认为繁简体混用比较好,繁简中文,其实相当于大小写英文
中文的繁简体问题是比较特殊的历史产生的问题,世界上任何其它语言文字都没有碰到过类似的问题。但是我认为这个问题并不是什么致命的问题,无论是在浏览或是编辑上,大家除了一些词汇差异(其实由于中文的特点,这种差异往往不会带来不可理解),并没有什么不便。
如果说有什么问题,那是发生在搜索上,我认为可以在中文维基的搜索中加入自动繁简/简繁转换搜索的选项。
中文中简繁体的问题,完全可以当成英文中大小写的问题来对待,并无大碍。--21st centry fox 12:16 2004年5月16日 (UTC)
简体繁體條目問題
前面主要是討論到簡繁體字的問題,不過我覺得可以利用轉內碼的方式解決。我這裡有幾個問題,希望能在這裡獲得解決。1.兩岸五地(中港澳台新)對於部分條目的用語,各有互異。有時候台港相同而與中新相異。有時候卻是中港相同而與台新相異。譬如電子計算機的繁體字版,我到底是要利用這個條目來書寫,還是另創「電腦」條目,使用我的習慣用詞來編寫呢?未來簡繁體字合併後,兩岸五地詞彙不同的問題,目前管理員的傾向為何?2.由於簡繁體字問題即將透過技術解決,那目前簡繁體同一條目,不同內容,該如合併為一個條目?3.繼續2的疑問,那是否簡繁體某一版本已經有人寫過,那另一字體是否我就不應該去書寫,以免造成日後整合的困難?希望能聽聽管理員官方的說法。
另外,簡繁體字對於某些政治立場偏激的讀者,恐怕會激起其敵視心裡,是否目前仍以簡體字版用簡體字,繁體字版用繁體字作為整合前的暫時政策,以免造成新加入者的誤會。
删繁就简是大势所趋
众观古今中外,莫不如此.既然能有简单的办法,何必非要去写那些繁杂的字体哪.更何况文字只是一种表意符号而已,我想还是应该推行文字简化比较符合时代潮流.
- That would certainly defy the very principle of wikipedia itself.--Johna 00:30 2004年5月29日 (UTC)
- 文字必須要有表音的功用在內呀,而且這種說法似乎忽略了多元文化的重要。 Dowba 03:21 2004年6月13日 (UTC)
請參考 「繁簡之爭是無意義的」一文 -{R|http://leoboard.cpatch.org/cgi-bin/topic.cgi?forum=23&topic=16&start=84&show=}-
基本上, 語文這種東西很怪, 人們通常不太願意改變自己已經慣用的事物, 但是從另一方面來看, 不論是使用繁體或簡体, 都可以視為捍衛自己文化的表現, 沒有一方應該受到無理的攻詰, 如同生物演化一般, 語文的歧異性是隨著地理 歷史與政治不斷改變的, 英文是從德文演變而來, 而法文是經過一千多年從英文演變而來, 如今都成了獨立的體系。 繁簡字只有50年的差異, 但是很難說500年後會各自長成啥樣子. 中文的辭彙很早以前就在各地有了不同的衍用, 我請你吃夜宵(宵夜), 或是你口音很道地(地道), 這才只是第一課呢, 我個人贊成交流, 但是不贊成一下子就用包裹表決, 也就是說, 在一致性與習慣性中立刻作出取捨, 對各方'編寫者'和'使用者'來說, 都是一項考驗, 像維基中文百科其實是很好的工具, 可以讓來自不同地方的參與者學到不同的想法, 但需要更多的包容, 大家加油!! -- 阿牛 03:18 2004年9月9日 (UTC)
中文繁简繁体简体转换转码编码网页网站
中文繁简繁体简体转换转码编码网页网站 for Internet Explorer
Reply to the last message
It's not really a good solution since wikipedia should be open to as many people as it can be, and installing some plugins to a browser doesn't give us that.
I second the motion on writing some sort of converter program to display the appropriate language content based on the user's own browser default language setting, since this would allow most of the people on the net to get access to the information they need on wikipedia without going through the troubles on installing additional software.
As for the programming part, I would like to volunteer to help! Not as a professional programmer, I had little experiences on writing in php, perl, pascal and C/C++. I haven't yet checked what mediawiki is made of (yet) and therefore don't know what it is written in. But I have all summer to write! (I just finished my en:HKCEE exams in Hong Kong, and I actually have at least two months of free time!) So, if anyone is already doing a bit of programming, count me in! But if nobody has started, I guess I can do it if I've got to start from scratch! --Johna 16:34 2004年5月28日 (UTC)
Johna 和 Mountain讨论了繁简互化的问题,下面是他们讨论的记录。
programming requirement and my thought
首先必须明确从整体上看繁简互化是一个多到多的过程,但其中大部分时一对一的。下面先举几个例子说明繁简转换的复杂。
就拿“台湾”的“台”字举例来说,简体的“台”字对应着繁体“臺”、“檯”和“颱”,如果“台湾”一词在台湾确实是写作“台灣”而非“臺灣”的话,那么简体的“台”字对应着四个繁体字“台”、“臺”、“檯”和“颱”。另一方面,一个繁体字也可能映射为多个简体字,具体取决于这个字的含义,比如“乾、乹、亁”这三个字,作“乾坤”的“乾”讲时,被简化为“乾”,但作“乾湿”的“乾”字讲时被简化为“干”字。而“干”字本来在繁体中还有它自己的意思,如“干预”,这样的话,简化的“干”字映射为繁体字时也是一对多的,它既可以映射为“乾”字,还可以保持不变为“干”字。
从上面的例子我们可以看到,我们必须整理细分到同一个字的不同含义,才能正确转换繁简。同时,还有异体字的问题,比如“乹、亁”三个是“乾”的异体字。
这里有一个难点,就是让计算机确定一个字在某个上下文的具体含义,这是非常困难的,但也是高质量繁简转换所必须的。我想我们可以建立一个词典,用最大匹配法匹配出一个词(这种技术在大陆叫做“分词”),然后再在词的基础上作繁简转化。比如简体的“台”字化为繁体时大概按下面的方式进行:通过分词确定出“台”字所在的词,如果是“台州”就转化为“台州”,如果是“台榭”就转化为“臺榭”,如果是“梳妆台”就转化为“梳妝檯”,如果是“台风”就转化为“颱風”,如果是“台湾”就转化为“台灣”,等等。这个方案不能保证完全正确,但我想足以应付大多数情况。
关于繁简互化最主要的需求我觉得有以下几点:
- 用户可以在他的Preference中设定究竟要看简体版本,还是繁体版本。
- 应该既可以转化到简体版本,又可以转化到繁体版本
- 必须注意到下述的特殊情况:
- 在简体版本中,我们有时必须要引用一个字的繁体,比如在维基词典中介绍“台”字时说明它是“臺”、“檯”和“颱”三个字的简化,这时我们必须要使“臺”、“檯”和“颱”三个字不作简化。
- 同样在繁体版本中,我们有时必须要引用一个字的简体,比如在维基字典中介绍“臺”时,必须说明它的简体字是“台”。
- 某些场合中,不论是简体还是繁体版本,我们很难让计算机判断如何正确地繁简转换,我们不得不手工指明如何繁简转换。
- 我们更新简体版本同时也更新了繁体版本,更新繁体版本同时也更新了简体版本
- 解决好Wiki文本中的链接,比如“台风”和“颱風”,就对应两个Wiki的链接 -{R|http://zh.wikipedia.org/wiki/台风}- 和 -{R|http://zh.wikipedia.org/wiki/颱風}- 。
- 确定繁简版本是分开存储还是统一存储。
- 解决好条目统计:比如增加了一个关于“台风”的条目,我们同时可以看到“台风”和“颱風”两个版本,但条目计数应该增加1,而不是2。
关于Wiki文本中的链接和条目统计我没有研究过MediaWiki的代码,所以不好说什么。但前面几条我有几个建议:
- MySql数据库中存储的是繁简混合的文本,然后可以通过 simplify 转化为简体版本,通过 traditionalize 转化为繁体版本。也就是我的方案中繁简版本是统一存储的。
- 引入新的Markup:针对前面提到的三种特殊情况,我们必须提供手段,表明一个字不作繁简转换,我建议采用C语言中常用的手段,加一个反斜线。比如:用“\颱”表明“颱”字不作转化(不论是简化还是繁化),用“\台”表明“台”字不作转化(不论是简化还是繁化)。我还建议采用两道反斜线的方法手工指定繁简转化,比如“\\台颱风”说明这段文本在简体版显示为“台风”,在繁体版显示为“颱風”。
- 显示时繁简转化的任务可以交给Wiki文本的Parser来处理。
- 编辑Wiki文本时,不作繁简转化,直接显示数据库里的混合文本。
- 链接的处理好像有些复杂,我还没有想清楚。
以上是我的一些看法和建议。--Mountain(Talk) 09:06 2004年5月30日 (UTC)
some other talk at Wikipedia talk:中文繁简体对照表#为什么要分类及我的一些设想.--Mountain(Talk) 09:22 2004年5月30日 (UTC)
- Thanks, looks like there's more work to be done than I previously (and, rather naïvely)expected. I'm not quite sure if I am experienced enough for this... I'll give it a try, anyway.
- A question : are we planning on phasing the output and store one version per article, or are we planning on doing the phasing in editing, and keep two versions?
- The former one may slow down browsing but will keep the DB small; while the latter will make browsing as fast as it is now but we will need to maintain a larger DB...
- --Johna 10:40 2004年5月30日 (UTC)
两种方案,我现在支持第二套方案了
从存储上来看,确实如你所说有两种方案,第一种保存一个混合版本,第二种保存繁简两个版本。但第一种不见得会 slow down browsing ,原因是现在的MediaWiki软件引入了Squid的Cache技术。可第一种方案无法简单的Caching,它只提供一个存储版本,但要对应两个Cached Page。
第二种方案看起来更好一些。第二种方案遇到的主要一个问题是条目命名上的冲突,比如“地球”不论繁简体都是“地球”,解决的办法也很简单就是用“地球/简”和“地球/繁”这样的方法来区分。在保存的时候自动将[[地球]]转化成[[地球/简]]或[[地球/繁]]。同时“地球/简”和“地球/繁”也成为Cached Page的名字。
第二种方案必须为繁简用户各自提供一套界面(UI),因为它在显示时不作繁简转换。
经过这个分析,我现在支持第二套方案了,呵呵。--Mountain(Talk) 13:55 2004年5月30日 (UTC)
或许还要仔细考虑一下。--Mountain(Talk) 13:57 2004年5月30日 (UTC)
- I didn't know the cache part,thanks. But I have another question : how do we count our articles now? I believe that we don't have the distinction between trad and simp (in the computer's sense), right? So the number we have now must be more than the articles we have...Are we going to do something about that?
- P.S. Perhaps we should talk about this where most of us can easily access, any place we can talk about this instead of our own talk pages? :)
- --Johna 16:09 2004年5月30日 (UTC)
Squid Cache的资料
请参考:Wikipedia network ideas。--Mountain(Talk) 02:07 2004年5月31日 (UTC)
我支持第一套方案
如果Cache不能满足需要的话,就改Cache好了。
第一个方案的优点是明摆着的,而第二个方案在数据库中增加了冗余信息,这在数据库设计中应该尽量避免。
至于繁简转换,可以采取机器自动转换加人工干预的方式。如果机器可以正确转换不必人工干预,如果不能则应该引入干预机制,还是以台湾为例,可以增加一个符号,例如“[简体:台湾|繁体:台灣]”这样的方式,机器根据HTTP_ACCEPT_LANGUAGES自动确定如何对文本进行render。
Would you like some piggies to eat? 07:41 2004年5月31日 (UTC)
On second thought, I'm buying the 1st method now. Just thought that if the cache can take care of the browsing part of the problem I mentioned, then we can deal with the output easily. But since parsing is done in output, how are we going to store problematic words in a single version of an article in a single DB? Convertion with human involvement cannot be done if we only parse at output. Markups above mentioned by Yaohua2000 needs to be introduced. (Personal Note : Don't know why....I just can't set up mediawiki at home with version 1.3.0beta1...got to keep on trying...)--Johna 01:34 2004年6月2日 (UTC)
将来如何实施?
未来繁简体转换程序作好以后,如何实施呢?现在的同一条目存在繁简两个版本,而且有些内容也不一样。到时候怎么转换呢?是不是需要人工来完成?如果这样,应该建议大家现在不要创建同一条目的两个版本,方便将来的转换工作。--百无一用是书生 (Talk) 08:42 2004年6月3日 (UTC)
同意 --Djyang 20:45 2004年6月4日 (UTC)
同意,現在一條條目有兩個版本,若果要對它們做編輯的話,就要做兩次同樣的事,非常麻煩(也不合理)。一條目一頁面是我們的最終目的,現在創建兩個版本是反其道而行,會增加將來的(及現在的)工作。 --Lorenzarius 09:05 2004年6月13日 (UTC)
那麼速度能快就快吧,這種事情拖了不好的。-- anon
不如现在马上开始合并条目,每个条目只保留一个版本,繁简混杂也没关系,至少比把繁简分列成两个完全不同的条目要强得多。 -- Ran 08:36 2004年6月24日 (UTC)
- 唯一的问题就是:不知道繁简转换程序什么时候可以启用?假如我们现在就把繁简合并了,等三年后转换程序才开始使用,恐怕到那时维基百科已经乱得没法看了。 -- Ran 01:57 2004年6月25日 (UTC)
關於繁體版條目
近來新近網友致力於繁體版條目的建立,使用了其他簡繁字轉換軟體創建了新版面,不過在用詞部分,有時僅是簡體版的轉換,這裡提供臺灣用詞的網路資料,編寫者可參考運用。
1.國立編譯館:包括自然科學、應用科學、外國地名譯名、音樂界等,為目前臺灣學校教科書的標準規範,但部分用詞仍與民間使用有差異,如computer。
2.臺灣外交部世界各國簡介:臺灣官方、媒體對世界各國的用詞。
不同地区用词的差异
使用中文的不同地区,存在着用词上的差异,尤其是外国人名、地名等。我们现在主要考虑大陆与台湾地区用户的差异。但是香港、新加坡等地区在中文使用上的差异也应该考虑到--百无一用是书生 (Talk) 02:56 2004年6月21日 (UTC)
- 我觉得用词问题倒不是太大,英美用词也存在差异,但英语维基通过重定向就很好地解决了,如streetcar、tramway和trolley car都重定向至tram,我觉得如“计算机”、“电脑”;“意大利”、“义大利”等也可以这么解决,总之只要繁简问题解决了,其他一切都好办。-- Ran 09:37 2004年6月23日 (UTC)
- 同意。補充一點,對於用詞差異,建議在文章裡另外加註(XX地區: YY,OO地區: ZZ)。這樣子做的好處是,在做軟體自動繁簡體轉換時可以少做一些用詞上的轉換,特別是地名人名專有名詞等等的轉換。---Djyang 21:53 2004年6月23日 (UTC)
- 除了條目用詞上的解決以外(我認同上文利用重定向是很好的解決),內文的用詞差異卻該怎麼辦呢?--MilchFlasche 10:25 2004年7月12日 (UTC)
- 等将来繁简转换程序写好了再说吧......现在只好靠括号了。 -- Ran 14:29 2004年8月15日 (UTC)
我来提个解决方案
方案如下:
- 每个条目只保留一个版本。
- 由于繁化简比简化繁要直接的多,建议保留繁体版,把现有简体条目全部转换/合并为繁体条目。
- 简体用户编辑维基百科时,网站自动将简体编辑内容转换为繁体。
- 如转换有误(如“制度”转成了“製度”),可以由繁体用户自行更改(和改错字的道理一样)。
- 简体用户浏览维基百科时,网站自动将繁体条目内容转换为简体。
- 如转换有误(如“乾隆”转成了“干隆”),则只能通过更改转换规则来解决。
- 繁化简的转换规则放在一个完全开放的页面,采用一目了然的格式,任何人都可以进行更正。规则为从上到下,如:
繁 | 简 | 例外 |
颱 | 台 | |
檯 | 台 | |
臺 | 台 | |
乾 | 干 | 乾隆、乾坤、康乾 |
瞭解 | 了解 | |
義大利 | 意大利 |
以上这个表可能很长,可以分成好几段。简化繁的转换规则(只用来转换简体用户对条目的编辑)也可以这样列出来,当然简化繁的转换规则会复杂得多。-- Ran 12:50 2004年6月23日 (UTC)
完全同意,希望繁簡轉換能儘快啟用,以便全球華文人口集思廣益。
基本上伺服器端轉碼功能方面,應該可以參考市面上評價不錯的工具,比方說信使繁簡通等(使用範例可參照時報悅讀網的內文和留言板,繁簡切換鍵位於 logo 下方)。這類工具標榜的功能十分符合華文維基百科的需要。像是採用線上動態轉碼技術,支援資料庫發佈內容的轉換;不但從伺服器發到客戶端的資訊會轉換成簡體,簡體客戶端的資訊發回伺服器時,也會被轉換成繁體再入資料庫;支援中文簡繁一對多的映射、習慣用語的轉換以及用戶定義辭典等。
不過在程式方面,是由 Wikipedia 的工作人員提供支援?或者有購買商業軟體的打算?還是要找功能近似的開放源碼作修改呢?我在 Sourceforge 找到一個程式「紫雲繁簡一點通」,但不知道合不合用…… -- Casil 00:52 2004年7月2日 (UTC)
幾點意見
目前繁(正)體中文以台灣、香港以及海外華人為使用大宗,而簡體中文以中國大陸、新加坡為主流。個人認為兩者差異由小至大可以分為「字」、「詞」、「意」三個層次。從「字」的部分來說,簡體字起初的設計便是針對繁體字的多對一簡化,所以文件處理上理論上由繁轉簡應該可以避免最多錯誤(對雙方來說)。所以Ran的解決方案是技術上最該採行的。但是實際上面臨的卻是廣大的簡體中文使用者與相對少數的繁體使用者,如果要真的這樣實行就要請多數的簡體字使用者包容其中的不便,同時見轉繁的儲存也需要更多繁體使用者的校對,否則便失去了原本的立意。
「詞」的方面,則是兩岸(中文使用大宗,並且是輸出地區)分隔五十年由於政治、經濟、文化等等因素自然形成的差異。個人認為是缺少交流所導致,因為事實上兩岸中文用詞一直在變化,或是可以說一致化,特別是生活用語(也許跟台灣傳播媒體較強勢發達有關)。但是專業用語(資訊、法律、工程、醫學等)的差異卻依然相當大。個人認為這些差異性也許並不完全是字詞翻譯軟體可以涵蓋的。但在大部分的情況下,相同的名詞若有英文原文做參考(如 Printer: 印表機[繁]/打印机[簡]) 會比較簡單,但是只要在內文中放入不同中文地區的用詞,並以最先輸入資料的作者為主要參照,後輸入的名詞redirect到先輸入的,應該是使用者可以接受的方式。
最後談到「意」。目前簡繁體都歸於同一類別(中文)中,個人是樂見的,但是應該包容各地方對於同一中文字詞的多元解釋,因為只有保持自由與開放才能使全球所有的中文使用者更願意使用與加入Wikipedia的團隊中使其內容更充實。對於地域化的名詞,例如省、市。以及近代人物應該尊重該人、事、地的解釋與觀點,以避免不必要的爭議。
此外,目前中文開發是以簡體中文的介面為主,如果無法切換簡繁體,對於繁體使用者來說有些不便,希望管理員看看能不能以簡繁並列或附加的方式來改善(比如「导航条」真的是看不懂,可能附加一個「內容導引」在旁邊?「幫助」在繁體使用的習慣用語是「說明」)。這樣友善的介面我相信可以使得中文維基吸引更多中文使用者的加入!--Lijenhsin 07:06 2004年7月23日 (UTC)
我的一些看法: 我对技术方面一知半解,从大家的讨论中可以看出,繁转简是比较可行的办法。但是我不同意用重定向的方式来区别词语上的不同。最好的方式还是以前讨论的,建立一个繁简对照表,随时维护,在页面调入时,从对照表中调入相应的词汇。
另外,现在的简体界面管理员不能修改代码,只能修改文字。如果简繁体同时显示,只能在现在的基础上并列增加繁体文字,这样显示很不好看,以前的讨论大家也同意这样。--百无一用是书生 (Talk) 07:22 2004年7月23日 (UTC)
参考意见
偶做的一点尝试在VicDir商业信息系统,目前跟Google一样,没有去做意译的事,就是字对字的直转。新华网的论坛具有一些意译的功能。 其实真正理想的状态是无论输入者输入什么语言,显示给阅读者的总是符合其阅读习惯的语言。偶打算用AI来对付这个需要。 偶不大同意楼上的软件不能解决转换问题的说法。机器虽然笨,可是偶们可以赋予它学习的能力。每一个阅读者都可以是它的老师,而这样的老师是数以亿计的,恐怕没有人能有这样的机会从那么多人手上学东西。--ccton 17:15 2004年7月26日 (UTC)
根本不該有繁簡體兩種百科全書
我認為根本不該有繁簡體兩種百科全書,一種就夠了。只要有一個中文版,然後根據用戶設定或是地區顯示繁體或是簡體。例如DNS反查是來自北京未登記的用戶,預設顯示簡體;如果DNS反查是來自非漢人的國家,例如德國,也可以預設顯示簡體。但是用戶可以自由更改設定。
我想最快的解決方案是多幾個tag,讓修改文章的人補充內容。例如有人用繁體寫了以下的內容:
- 雪梨的特產是印表機和速食麵。←我亂寫的,不要相信。
如果有簡體中文的讀者想要修改,可以改成:
- <TC>雪梨</TC><SC>悉尼</SC>的特產是<TC>印表機</TC><SC>列印机</SC>和<TC>速食麵</TC><SC>方便面</SC>。
以後有人從北京或是新加坡查詢,就會看到:
- 悉尼的特產是列印机和方便面。
但是港台的用戶還是會看到:
- 雪梨的特產是印表機和速食麵。
如果有人想調整設定,可以自由選擇要看的版本。
同理,如果一個頁面最早是簡體中文,繁體中文的讀者也可以動手增加內容。因為繁簡兩邊都可以看到內容,比較不會有惡意修改的狀況。當然這裡使用的tag有點囉唆,也許各位可以想出更好的解決方法。
- 張三是個<TC>逃稅大戶</TC><SC>商人</SC>。
這個方法的缺點是浪費人力,不容易修改,而且只能當臨時方案。很多常用的簡單字,例如<TC>個</TC><SC>个</SC>,根本不該用這個方法改。這個方法我自己承認真的很爛。
如果一個頁面看的人很少,補充的機會就不大。但是對熱門的頁面,應該很快就可以修改到中港澳台新五地都很容易閱讀的狀態。搞不好很快就有人寫出自動修改的<TC>程式</TC><SC>程序</SC>。我們必須馬上讓大家都滿意,以後才有時間做出更好的解決方案。
至於語氣等更高深的問題,我想爭論下去是無意義的。康有為是廣東人。大家都知道廣東方言跟<TC>國語</TC><SC>普通話</SC>相差很多。請問康有為到北京考試的時候,是不是寫廣東式中文?
答案:當然不是。康有為在家說廣東話,但是在參加科舉考試的時候,用的還是文言文。也許有些人對文言文不以為然,但是當時所有的讀書人都讀四書五經,都讀各種古書,他們寫文章自然也用這種幾千年來知識份子共通的語言。李白寫詩用家鄉話嗎?韓愈寫文章用家鄉話嗎?大家都約束自己用一種大家都可以懂的文體寫作,這就是文言文。
假設有時光機器,能把任何時代的人送到任何一個不同的時代。我把漢朝的司馬遷送到宋朝跟司馬光作伴。司馬光應該很容易懂司馬遷寫的東西,因為宋朝的讀書人一定讀過漢朝文章;除了歷史差異外,司馬遷應該也很容易懂司馬光。道理很簡單,司馬光寫的東西司馬遷應該懂大部分,剩下的地方司馬光可以改。
這就是中文的優點。
在古代,書寫的文體是文言文。大家都可以看懂。我們不可能用文言文寫百科全書,但是可以從官話為基礎,演變出共通的白話文。不管原來說什麼方言,住在什麼地方,藉由閱讀別人寫的文章,總有一天中國人又可以發展出互通的文體。香港式的中文懂的人比較少,但是總可以修改成大家都可以接受的通用白話文。
不管怎樣,根本不該有繁簡體兩種百科全書。以前的中國人說話再怎麼南腔北調,文字還是相通的。今天中國人口語都已經勉強相通了,怎麼還能容忍文字不相通呢?
-- Toytoy 03:31 2004年8月4日 (UTC)
- 我想只維持一個中文版本的維基百科已經是共識了:-)現在所謂的繁簡問題實際上只是技術上如何去做到繁簡轉換的問題。 --Lorenzarius 05:38 2004年8月4日 (UTC)
- 先有一个标准,然后用技术实现;还是先去用技术实现,等差不多了,再制定一个标准?--zy26 07:25 2004年8月4日 (UTC)