說明:中文維基百科的繁簡、地區詞處理
| ||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| ||||||||||||||||
| ||||||||||||||||
| ||||||||||||||||
| ||||||||||||||||
| ||||||||||||||||
| ||||||||||||||||
|
中文維基百科繁簡、地區詞處理是中文維基百科的自動轉換,目的是以電腦程式適應不同用字模式的差異。
中文維基百科的讀者和編者來自世界各地。他們所需求或貢獻的中文在字詞性質上有許許多多的差異,像是簡化字和繁體字的差異、各地區用詞的差異等等。MediaWiki將這些中文性質集合在一起,稱為「用字模式」。可以說:一種用字模式就是某些中文性質的一個集合。為了整合讀者和編者多元的資源,也為了促進各方的交流,本百科並不規範讀者或編者要使用何種用字模式,而是嘗試以電腦程式的自動轉換來適應這些差異,讓編者可以以自己的用字習慣提供資料,也讓讀者可以選擇所要的資料的用字遣詞。因此編輯和閱讀中文維基百科時有特別的事項需要注意。事實上,就連本頁嘗試說明的事項,也有許多模糊之處。
用字模式自動轉換與MediaWiki系統本身的原理有關。大部分編者輸入系統的文章內容,包括文字和維基語法等等,在此稱為原始碼。維基系統通常會保留完整不變的原始碼,不作自動轉換。讀者使用維基系統時,並非直接閱讀原始碼,而是由系統將原始碼即時自動轉換成合適的形式,例如加上圖片、超連結等等。而中文維基百科的用字模式轉換就是眾多自動轉換程式中的一道。自動轉換不只惠及百科的條目文章,也遍及頁面分類等等頁面。
維基程式根據轉換表、公共轉換組、手工轉換規則,自動轉換字詞,包括手工指定不作轉換。轉換表是適用於中文維基百科全站,列出不同用字模式之間,字與字或是詞與詞之間的對應關係的表格;目前只有管理員能編輯轉換表。公共轉換組適用於其所嵌入的各頁面。手工轉換規則單獨用於其所在的頁面(或其後部分),是維基系統在讀者點閲時即時作出的自動轉換,若與上層轉換所設的字詞重合則為優先。編者在編輯時可以「預覽」切換至其他用字模式檢視轉換成效。
用字模式選擇
[編輯]目前中文百科系統支援中文的zh(不轉換的用字)、zh-hant(正體/繁體用字)、zh-tw(台灣用字)、zh-hk(香港用字)、zh-mo(澳門用字),以及zh-hans(簡體用字)、zh-cn(中國大陸用字)、zh-sg(新加坡用字)、zh-my(馬來西亞用字)九種用字模式。不過,目前中文維基百科只對外開放zh-tw(台灣用字)、zh-hk(香港用字)、zh-mo(澳門用字)、zh-sg(新加坡用字)、zh-my(馬來西亞用字)、zh-cn(中國大陸用字)等六種模式。zh(不轉換的用字)、zh-hant(繁體用字)、zh-hans(簡體用字)三種模式主要用於維護,一般需登入後在偏好設定/⧼gadgets⧽/介面顯示工具中去除隱藏「不轉換」、「簡體」和「繁體」三個標籤
的核取方塊才能顯示。zh-my(馬來西亞用字)原被zh-sg(新加坡用字)所涵蓋,於2018年正式拆分啟用;zh-mo(澳門用字)原有zh-hk(香港用字)涵蓋,於2013年正式拆分啟用。欲要支援更多的用字模式需要修改程式,如有實際需要請在討論頁中提出。
文章主體用字模式選擇(按優先級):
- 所有人都可以把URL(
//zh.wikipedia.org/wiki/條目名稱
)的wiki
改成zh-<變體>
,而//zh.wikipedia.org/w/index.php
開頭的頁面可在URL最後加上&variant=zh-xx
(URL有?
時用)或?variant=zh-xx
(URL沒有?
時用)。其中xx
可為hans
、hant
、cn
、tw
、hk
、mo
、sg
、my
; - 已登入使用者可在個人偏好選擇不同的用字模式;
- 匿名使用者可選擇瀏覽器語言,系統會根據選擇設定,詳見此處;
- 如果以上設定都沒有,則預設不轉換。
另外,不同外觀(Skin)都有各個用字模式的連結。如現在的Vector面板,連結是在頁面討論頁連結(或)右側,使用下拉選單選擇。以前的MonoBook面板連結則是在文章右上方。
介面用字模式
[編輯]介面用字模式是獨立於文章內容的用字模式。除了中文各種用字模式,還可以選擇英文、法文等等語言。介面用字模式在已登入使用者的個人偏好裡設定。
轉換技術
[編輯]技術上,維基百科的字詞轉換有四層:其一是MediaWiki內建的轉換表,供各維基計劃全域轉換;其二是MediaWiki:Conversiontable定義的繁簡和地區詞轉換表,供中文維基百科本地全域轉換;其三是各公共轉換組,供主題相同和相似的條目統一轉換;其四是各條目內設的手工轉換,供該條目單獨使用。其中,可由具有相應頁面編輯權限者編修,若無此等權限,可在相應頁面的討論頁提請代爲編輯;而修改本地轉換表則需管理員權限,修改全域轉換表須向MediaWiki版本庫提交程式碼。如欲新增或修復全域及本地全域轉換,一般使用者需在維基百科:字詞轉換申請,交由管理員協助處理。
轉換表
[編輯]目前,系統預設的自動轉換是根據數個「轉換表」。轉換表就是一份表格,記載各種不同用字模式之間,字與字或是詞與詞之間的對應關係。目前只有管理員能編輯轉換表,普通使用者可在Wikipedia:字詞轉換/地區詞候選、Wikipedia:字詞轉換/修復請求提出修改轉換表的建議。
全域內建轉換表
[編輯]適用全域的內建轉換表在MediaWiki程式中。
參見:Wikipedia:簡繁一多對應校驗表及Wikipedia:繁簡一多對應校驗表。
本地全域轉換表
[編輯]數頁Mediawiki:Conversiontable本地全域轉換表,用來修正MediaWiki內建轉換表的錯誤。這些頁面描述轉換關係須依以下格式:
皇后 => 皇后; 波斯尼亚 => 波士尼亞; 萨拉热窝 => 塞拉耶佛 // Sarajevo 的翻譯; ...
為方便顯示,每條對應前可加星號(*)或井號(#),可用「//」加寫注釋,注意每條轉換關係要以「;」終止。
Conversiontable/zh-cn頁面用於向zh-cn的轉換,Conversiontable/zh-tw頁面用於向zh-tw的轉換,等等。
這些頁面更新後,效果並不一定會即時顯現,因為有些頁面可能放在頁面暫存區裡。要看即時效果可以用編輯預覽功能。
-{}-標記
[編輯]例如:
「張國榮曾在英國里茲大學學習。」
所用的-{}-標記是:
[[利兹大学|-{zh:利兹;zh-hans:利兹;zh-hk:列斯;zh-tw:里茲}-大学]]
參見本頁「§ 防止自動轉換一段文字的標籤」。
-{}-標記現可完整轉換連結、模板、圖像。轉換HTML屬性請使用{{lan}}。
原始碼一般不轉換
[編輯]大部分編者輸入系統的文章內容,包括文字和維基語法等等,在此稱為原始碼。維基系統通常會保留完整不變的原始碼,不會自動轉換原始碼。
斷詞問題——自動轉換程式常見的問題
[編輯]注意:中文維基百科不保證用字模式自動轉換程式和內容的準確度。用字模式自動轉換並不一定正確,甚至可以說是各種自動轉換中問題最多的。
轉換程式用最簡單的「最大匹配法」來轉換,會導致以下錯誤:假設轉換表有一對應關係為:
内存 => 記憶體
現轉換以下句子:
人体内存在很多微生物
基於「最大匹配法」,系統會轉換「内存」,得到「記憶體」。整個句子將會被錯誤地轉換成:
人體記憶體在很多微生物
解決這個問題的根本方法是用智慧型的斷詞匹配,將上述句子先拆分為:
人体 内 存在 很多 微生物
然後再單獨轉換每個詞。
在有這種智慧型的斷詞系統成熟並部署至MediaWiki前,有兩種方法修正上述錯誤:
- 親手將涉及斷詞錯誤的詞分開:人體內-{}-存在很多微生物
- 將涉及斷詞錯誤的多個詞作為整體加到自訂轉換表裡,如「体内存在 => 體內存在」。(註:目前只有管理員能編輯轉換表,一般人可以向管理員提出申請。)
以上就是斷詞的錯誤及解決方法。閱讀本百科時請多加注意。遇到可疑的部分,可以前往編輯頁面去查原始碼,或是多多留意不同用字模式之間的轉換關係,以養成自行「反轉換」的能力。
控制自動轉換的程式碼
[編輯]出於特殊的需要,可以用以下的語法設定不自動轉換,或是「手工轉換」。
設定了所謂「手工轉換」,其實維基系統仍然會在閱讀者使用時根據系統預設轉換表作自動轉換,但是這時系統還會根據編者在原始碼中指定(增添)的方式作轉換,並且將編者的方式優先排在轉換表所列出的方式之前。也就是由編者自行增添轉換方式。[翻譯腔]
常用的轉換工具語法
[編輯]- 防止自動轉換一段文字的標籤:
-{文字}-
- 效果:文字
- 對於
-{}-
中的文字為轉換規則(如「zh:中文」),但又希望保持原樣,可以用: -{R|文字}-
- 效果:文字
- 防止自動轉換一段文字整體的標籤:
文-{}-字
- 但分隔在-{}-兩側的文字仍會轉換。簡單來說是切斷文字,分別轉換。
- 可用於希望保留特定地區用詞但需轉換簡繁的場合,透過打斷詞語使上層轉換規則不能辨識希望保留的地區詞。
- 效果:
- 繁體:舊-{}-金山,香港稱-{三藩市}-。
- 簡體:旧-{}-金山,香港称-{三藩市}-。
- 手工轉換一段文字的標籤(局部自行增添轉換方式標籤):
-{zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;zh-mo:文字8;zh-my:文字9;}-
- 效果:文字5
- 全文手工轉換標籤(全面自行增添轉換方式標籤):
-{A|zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;zh-mo:文字8;zh-my:文字9;}-
- 效果:文字5
- 隱藏式全文手工轉換標籤(全面自行增添轉換方式標籤):
-{H|zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;zh-mo:文字8;zh-my:文字9;}-
- 效果:文字5
- 全文手工刪除轉換標籤(從上層轉換規則中刪除指定規則,即在此頁面下方不再以該規則轉換):
-{-|zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;zh-mo:文字8;zh-my:文字9;}-
- 效果:文字1
- 頁面標題手工轉換標籤:
-{T|文字}-
- 或
-{T|zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;zh-mo:文字8;zh-my:文字9;}-
- 轉換規則描述標籤(將該規則用人易讀的方式顯示出來):
-{D|zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;zh-mo:文字8;zh-my:文字9;}-
- 效果:原文:文字1;简体:文字2;繁體:文字3;大陆:文字4;臺灣:文字5;香港:文字6;新加坡:文字7;澳門:文字8;大马:文字9;
- 用字模式名稱標籤(將某種語言的代碼轉換成文字描述):
-{N|zh-tw}-
- 效果:臺灣
- 僅轉換指定語言:
-{zh-hans;zh-hant|文字}-
- 效果:文字
- 若為zh-hans;zh-hant則顯示轉換後的
文字
,否則單純顯示不轉換的文字
。有沿泝(fallback)的限制,MediaWiki 1.15新增功能。此功能可用於需要避免地區詞轉換,但允許繁簡轉換的場合。比如{{Infobox Film}}中的各地片名部分。
- 全文停用自動轉換:
__NOCC__
或__NOCONTENTCONVERT__
- 頁面標題停用自動轉換:
__NOTC__
或__NOTITLECONVERT__
條目標題
[編輯]部分文章標題不需要轉換地區詞,如《計算機世界報》之類的專有名詞。在簡繁同體的情況下,可在文中加入__NOTC__
或__NOTITLECONVERT__
(注意前後都是兩道底線),以阻止轉換標題。然而,在中文維基百科,由於部分標題簡繁不同體(如「计算机世界报」和「計算機世界報」),我們不推薦使用以上兩個標籤,而推薦使用下文中的「-{T|}-
」轉換。
注意:這標記應放在文章開頭。
部分文章標題或許含有個別地區特有的字詞,但不適合透過修改轉換表或公共轉換組來達成自動轉換的目的,通常是因為一些常用字。如果貿然修改轉換表或公共轉換組,可能會造成更多地方出錯。這種情況下可以有兩種方法處理,我們推薦後一種:
- 在文章內使用標題轉換來指明標題的正確顯示:或
-{T|标题}-
-{T|zh:原始標題用字; zh-hans:原始标题简体用字; zh-cn:大陆简体用字; zh-my:大马简体用字; zh-sg:新加坡简体用字;}-
實例:美國政治家John Kerry分別有「約翰·克里」、「約翰·凱利」等不同譯名,但如果在轉換表中互換「克里<=>凱利」,那麼歐洲地名「克里米亞」、「克里姆林宮」將會變成「凱利米亞」、「凱利姆林宮」的錯誤情況,為了避免製造混亂,這情況比較適合在約翰·克里的條目中以手工轉換標籤修正標題與內文部份的相關譯名。
注意:該標記僅僅是指明文章顯示時對標題的轉換,而不能自動處理連結時的轉換。所以使用該標記時切記要透過重新導向將各種用字模式的同一標題指向該文章。如約翰·凱利。
全文停用自動轉換
[編輯]有時通篇文章都需要不轉換。在這情況下,可在文中加__NOCC__
或__NOCONTENTCONVERT__
(注意前後都是兩條底線)來防止轉換內容。不過,在中文維基百科,為了便於各地讀者閱讀,我們不建議禁止除字詞轉換相關頁面以外頁面的全文自動轉換。
注意:此標記要放在文章開頭。
自動轉換的能力範圍
[編輯]此章節需要更新。 (2018年8月6日) |
本百科很多頁面都可自動轉換,但是仍有很多例外。例如最近更新頁面Special:Recentchanges這樣的特殊頁面,有一部分不轉換。
頁面分類
[編輯]目前自動轉換電腦程式的能力範圍不只是百科的條目文章,也包括頁面分類等等頁面。因此除非特別指定,否則條目標題或是子分類標題的分類是根據經過自動轉換之後的結果來分類。然而在此的自動轉換和別處不同,僅僅是簡單的「繁簡轉換」,並沒有進一步轉換。[需要更新]
子分類也是一樣。
軟體問題
[編輯]2006年1月開始出現一個問題,可能與新版本的MediaWiki有關。只要是分類名繁體對簡體,條目或子分類就會從母分類消失,但是條目或子分類頁經過任何編輯之後又會恢復,但系統下一次的連結更新時又會消失。
參看:頁面分類。
這一問題已在2009年2月修復。
內部連結、URL、重新導向與搜尋
[編輯]雖然只有程式產生出來的頁面經過轉換而原始碼一般不經轉換,然而讀者收到的頁面上,在維基系統之內的「內部連結」(不是外部連結或普通的URL,參見Help:連結),並不是由原始碼決定,是由程式影響。
用字自動轉換電腦程式的能力範圍不包括維基百科的URL與搜尋功能。百科的系統不會轉換URL中漢字(有時是Punycode的代號形式)或輸入搜尋功能的查詢字串。
本百科的條目名稱搜尋(「進入」)會受到自動轉換電腦程式影響。
本百科的條目全文搜尋(「搜尋」)不會受到自動轉換電腦程式影響。
本百科之外的搜尋引擎如Google可能有自己的自動轉換電腦程式。目前已知搜尋時會作簡單的繁簡轉換。當需要建立繁簡重新導向頁面的時候,建立新條目的方式往往無法奏效。
如何建立繁簡/地區詞重新導向頁面
[編輯]編輯一般文章時的注意事項
[編輯]- 若無正當理由,請勿將文中繁體轉成簡體,反之亦然,這種操作屬於繁簡破壞!
請注意:若您的瀏覽器安裝了同文堂等繁簡轉換軟體或可以中文繁簡轉換的行動應用程式,請在編輯時將其關閉或移除。
- 避免繁簡混雜,避免以繁體書寫簡體地區特有字詞/以簡體書寫繁體地區特有字詞,頁面標題及分類必須全簡體或全繁體,否則可能不會正確轉換,如「中國历史」(正確寫法為「中国历史」或「中國歷史」)、「作业系统」和「操作系統」(正確寫法為「作業系統」或「操作系统」)。如果只需單純繁簡轉換(如前者),尚可能成功;但若為繁簡與地區詞差異錯位(如後者),則轉換通常註定失敗。尤其後者的情況基本上屬於繁簡破壞。因此,除非十分瞭解繁簡差異,否則在編輯極易出現繁簡與地區詞差異錯位的條目(例如電腦相關的條目)時,請簡體中文使用者不要使用繁體字輸入、繁體中文使用者不要使用簡體字輸入。