維基百科:字詞轉換/修復請求
|
| ||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| ||||||||||||||||
| ||||||||||||||||
| ||||||||||||||||
| ||||||||||||||||
| ||||||||||||||||
| ||||||||||||||||
|
本頁面為維基百科:字詞轉換下屬子頁面,用於處理各維基計劃全域轉換和中文維基百科本地全局轉換中的所有繁簡與地區詞錯誤轉換修復的請求。
轉換與修復原理[編輯]
由於簡體中文、繁體中文之間存在一對多現象,即以單一簡化字或繁體字來對應多個繁體字或簡化字[1][2],因此必須有額外的數據來補足原先丟失的資訊。例如,繁體中的「髮」或「發」,在簡體下都是「发」。在程式裏,我們有一個預設的對應,比如說「發」。那麼一般情況下要從簡體轉換成繁體時,程式遇到「发」就會先將其轉換成「發」。那麼什麼時候對應成「髮」呢?這就要看詞庫而定。比如詞庫中有「头发=>頭髮」的關係,這樣「头发」就會被轉換成「頭髮」。如果沒有這一關聯,那「头发」就會被錯誤地轉換成「頭發」。
那詞庫是如何建立的呢?我們先有每個字的預設對應,比如「发」轉換成「發」。然後我們在一個現有的繁體詞庫中尋找包含繁體「發」的詞,再轉換成簡體。這樣得到一個從簡體到繁體的詞彙對應關係。所以,我們先要確定一個多對應字的預設對應關係。同樣,修復過度轉換也是由上述的方法來處理。
外部連結[編輯]
錯誤轉換修復請求[編輯]
存檔 |
---|
繁簡轉換請求(2004-2014)
錯誤修復請求(2008-)
|
瑙鲁兹[編輯]
請修復簡體模式下錯誤轉換:「瑙鲁兹」,正確轉換應為「诺鲁兹」。出錯頁面:設拉子。其他說明:因為全局轉換中 諾魯-> 瑙魯 的轉換引入。諾魯茲節或諾魯孜節是中亞比較重要的節日。另外繁體也不需轉換,應為"諾魯茲"。見[1]、[2]、[3]、[4]、[5]--Kethyga(留言) 2024年3月7日 (四) 09:37 (UTC)
- 已修復,去除本規則。已修復於Update 2024-2(Gerrit:1040810),請耐心等待伺服器更新。—Chiefwei(論 - 歷) 2024年6月9日 (日) 11:35 (UTC)
- 現在只是把香港繁體的規則去掉了,簡體的沒去掉--屠麟傲血(留言) 2024年6月10日 (一) 01:55 (UTC)
- @Chiefwei,你沒修完。--Txkk(留言) 2024年6月15日 (六) 04:20 (UTC)
- 現在只是把香港繁體的規則去掉了,簡體的沒去掉--屠麟傲血(留言) 2024年6月10日 (一) 01:55 (UTC)
日裡[編輯]
請修復繁體模式下錯誤轉換:「日裡」,正確轉換應為「日里」。出錯頁面:日裏等大量條目。
此二字似乎是作爲一詞或「這段時日裏」等表述的一部分轉換,但是日里二字在中文維基百科更常見於音譯地名人名中,或者日與前文相連而里作爲後文音譯詞彙的一部分。宜將此條規則從php中去除或使用中文維基百科的轉換表覆蓋。之後也許可以額外將「時日裏」等比較常見且不會過度轉換的詞彙加入轉換規則。——枰(留言) 2024年3月19日 (二) 07:01 (UTC)
- 其他條目,標題中的比如日裏縣、日裏雪冷縣、拉維日裏、弗拉基米爾·日裏諾夫斯基、Special:Search/intitle:"日裏"。文本中的,比如臺北縣 (日治時期)中,日里其實是度量單位,2016年夏季奧林匹克運動會中國代表團中「2016年7月18日里約奧運」=>zh-tw:「2016年7月18日裡約奧運」,其他見Special:Search/insource:/日裏/(日+專有名詞中的里)。
- 想到幾個中文可能用到的「冬日裏、連日裏、整日裏、終日裏、數日裏、春日裏、秋日裏、夏日裏、幾日裏、十日裏、時日裏、
一-九日裏、工作日裏、白日裏、節日裏、平日裏」,其他可見北京大學CCL語料庫,不過有些可能非百科式常用詞彙,比較像文學類詞彙。--Kethyga(留言) 2024年3月19日 (二) 23:06 (UTC)- 可以參考年里/裏/裡、月里,日和年、月的實際用法還有差異,不過最終還得手動復檢。--Kethyga(留言) 2024年4月1日 (一) 16:37 (UTC)
- 已修復於Update 2024-2(Gerrit:1040810),請耐心等待伺服器更新。—Chiefwei(論 - 歷) 2024年6月9日 (日) 11:35 (UTC)
- zh-hk模式下打成春日裡了--屠麟傲血(留言) 2024年6月9日 (日) 15:32 (UTC)
峯[編輯]
請修復簡體模式下錯誤轉換:「峯」,正確轉換應為「峰」。出錯頁面:金峯山寺。其他說明:峯在《通用規範漢字表》作為峰的異體字,同羣和群。--Kethyga(留言) 2024年4月7日 (日) 09:56 (UTC)
- 異體字是相互的,不等同於繁體字。雖然有些異體關係中存在正體字,但是「峯」並不罕見於簡體中文環境的人名地名專名,不宜統統被「峰」取代。--— Gohan 2024年4月28日 (日) 07:49 (UTC)
- 簡體中文環境常見「峯」?「峯」在《通用規範漢字表》中就是「峰」的異體字,繁體字和異體字在《中華人民共和國國家通用語言文字法》的地位是完全一致的,都是限定在一些場合使用(見第十七條),在中維的轉換規則自然也應視同繁體字(既是規範漢字又作為另一個字異體字的情況除外,如「喆」「昇」等,但繁體字同有這種情況如「乾」,仍進一步說明它們地位是一致的)。既然異體字「棄」轉換為了「弃」,「峯」當然也應轉換,正式場合中國大陸也用「林峰」而不用「林峯」([6])。--自由雨日(留言) 2024年6月9日 (日) 16:06 (UTC)
- 維基的轉換規則不會完全拘泥於《通用規範漢字表》規定,因為規定往往是滯後的,當前媒體與社會的用字傾向隨時有可能突破(近年甚至出現了黄霄雲這樣的極端人名用字,但目前只是孤例)。不過對於本案,仍可繼續討論。—Chiefwei(論 - 歷) 2024年6月10日 (一) 03:08 (UTC)
- 感謝閣下提醒!您的回覆給了我很大啟發。不過……《通用規範漢字表》雖可能滯後,但卻是強符合「可供查證」的(以及相對滯後也意味着相對穩定),根據媒體社會用字傾向來決定轉換,是否會有原創研究/總結之嫌?比如黃霄雲,在今年(2024年)文聯旗下中國文藝網中的人名還是「云」而非「雲」([7]),在看不到當事人身份證的情況下,不同可靠來源中有不同用字,該如何定奪呢?--自由雨日(留言) 2024年6月10日 (一) 03:24 (UTC)
- 文聯既不代表在可靠來源中常用,亦非黃霄雲的主人或本人。在簡體中文環境的主流媒體中,「黃霄雲」並不比「黃霄雲」常用。--— Gohan 2024年6月29日 (六) 08:37 (UTC)
在簡體中文環境的主流媒體中,「黃霄雲」並不比「黃霄雲」常用。
[來源請求]--自由雨日(留言) 2024年6月29日 (六) 08:43 (UTC)
- 文聯既不代表在可靠來源中常用,亦非黃霄雲的主人或本人。在簡體中文環境的主流媒體中,「黃霄雲」並不比「黃霄雲」常用。--— Gohan 2024年6月29日 (六) 08:37 (UTC)
- 感謝閣下提醒!您的回覆給了我很大啟發。不過……《通用規範漢字表》雖可能滯後,但卻是強符合「可供查證」的(以及相對滯後也意味着相對穩定),根據媒體社會用字傾向來決定轉換,是否會有原創研究/總結之嫌?比如黃霄雲,在今年(2024年)文聯旗下中國文藝網中的人名還是「云」而非「雲」([7]),在看不到當事人身份證的情況下,不同可靠來源中有不同用字,該如何定奪呢?--自由雨日(留言) 2024年6月10日 (一) 03:24 (UTC)
- 請閣下留意簡體字在維基百科並非只有中國大陸使用——也會影響星馬用字,並區分「應然」與「實然」。維基百科的「應然」取決於現實的「實然」,而不由中國大陸的「應然」決定。另外,對於中國大陸,仍有不少人「名」中違法使用異體字,也曾鬧出不少交通站名借字改地名引發爭議、甚或最終改回異體字原名的新聞。--— Gohan 2024年6月13日 (四) 07:29 (UTC)
- 維基的轉換規則不會完全拘泥於《通用規範漢字表》規定,因為規定往往是滯後的,當前媒體與社會的用字傾向隨時有可能突破(近年甚至出現了黄霄雲這樣的極端人名用字,但目前只是孤例)。不過對於本案,仍可繼續討論。—Chiefwei(論 - 歷) 2024年6月10日 (一) 03:08 (UTC)
- 簡體中文環境常見「峯」?「峯」在《通用規範漢字表》中就是「峰」的異體字,繁體字和異體字在《中華人民共和國國家通用語言文字法》的地位是完全一致的,都是限定在一些場合使用(見第十七條),在中維的轉換規則自然也應視同繁體字(既是規範漢字又作為另一個字異體字的情況除外,如「喆」「昇」等,但繁體字同有這種情況如「乾」,仍進一步說明它們地位是一致的)。既然異體字「棄」轉換為了「弃」,「峯」當然也應轉換,正式場合中國大陸也用「林峰」而不用「林峯」([6])。--自由雨日(留言) 2024年6月9日 (日) 16:06 (UTC)
鳽[編輯]
請修復大陸簡體模式下錯誤轉換:「鳽」,正確轉換應為「𫛚」。出錯頁面:小葦鳽。其他說明:疑似在中日韓統一表意文字擴展區內的部分簡化字有數個並未被順利轉換成對應的繁體,並導致小葦𫛚及小葦鳽不被視作同等詞彙。另外可能一些同樣以鳥部類推簡化的字,如F區「𮭥」也有有類似情況。(但與𫛚字同區的「鵟」就有成功轉換。)--WiTo🐤💬 2024年4月24日 (三) 08:37 (UTC)
- @T45614631:「𫛚」和「𮭥」屬於通用規範漢字表以外的漢字(簡稱「表外字」)而「鵟」屬於表內字。表內字肯定是得到簡化了的,但表外字是否需要類推簡化具有爭議性,因為中國政府態度模糊並未明言表外字需要或不需要簡化(多數實際操作中類推簡化了)。我不是要說上述兩個字不可以簡化,但可能需要更多討論。可以看這裏關於應不應該無限類推簡化的一堆文章。另外我想到了植物也有一個「苦蘵」,當中的「蘵」要不要簡化也可以討論一下。--微腫頭龍(留言) 2024年5月6日 (一) 09:58 (UTC)
- 好,我去客棧開個話題。--WiTo🐤💬 2024年5月6日 (一) 15:30 (UTC)
- 等待共識,暫不處理。—Chiefwei(論 - 歷) 2024年6月9日 (日) 11:35 (UTC)
相信託洛茨基[編輯]
請修復臺灣正體模式下錯誤轉換:「相信託洛茨基」,正確轉換應為「相信托洛茨基」。出錯頁面:第一次莫斯科審判。其他說明:信托會轉換為信託,和相信托洛茨基毫無關係--SingBow(留言) 2024年6月11日 (二) 16:43 (UTC)
- 加了分隔。——暁月凜奈 (留言) 2024年6月20日 (四) 00:20 (UTC)
- @暁月凜奈 不止這一處,比如J·R·R·托爾金中的「相信托爾金」,可能需要加一個全局的「相信托-相信托」。--Kethyga(留言) 2024年6月20日 (四) 03:02 (UTC)
- (~)補充:google搜尋結果:site:zh.wikipedia.org "相信託"。--maki※有事請留言 2024年6月21日 (五) 12:59 (UTC)
佔多索夫[編輯]
請修復香港繁體模式、澳門繁體模式下錯誤轉換:「佔多索夫」,正確轉換應為「占多索夫」。出錯頁面:奧拉茲·佔多索夫。--Txkk(留言) 2024年6月15日 (六) 04:17 (UTC)
祇是[編輯]
請修復簡體模式下錯誤轉換:「祇是」,正確轉換應為「只是」。出錯頁面:阿爾巴尼亞語。其他說明:單獨的祇是多音多義字,但是「祇是」(zhǐshì)非多義詞,另外雖然不甚常用,應該不算錯。《重編國語辭典修訂本》收錄了「祇是」。--Kethyga(留言) 2024年6月15日 (六) 12:17 (UTC)
- 見Wikipedia:繁簡體轉換請求/增加cn:只tw:祗、祇,另外有「祇要」、「祇有」、「祗是」、「祗要」、「祗有」。祗(Unicode U+7957)、祇(Unicode U+7947)--Kethyga(留言) 2024年6月15日 (六) 12:32 (UTC)
- (~)補充:還有「祇能」「祇須」等
,經常會在討論頁看到某管理員使用「祇」這個字。--自由雨日(留言) 2024年6月21日 (五) 06:21 (UTC) - 神祇是 ——魔琴[身份聲明 留言 貢獻 新手2023] 2024年6月26日 (三) 12:01 (UTC)
政党[編輯]
請修復臺灣正體模式下錯誤轉換:「政党」,正確轉換應為「政黨」。出錯頁面:迪克·肖夫。其他說明:「政党」一詞未在此模式中轉換成「政黨」--,這是β衰變和正電子發射,請無視其他能量釋放。 2024年6月17日 (一) 07:29 (UTC)
- 全局中存在「党进->黨進」(党进),很可能需要從全局中去掉該轉換。或者可以考慮在本地建立各種于姓、党姓的轉換組,需要完善Template:CGroup/姓氏。 --Kethyga(留言) 2024年6月18日 (二) 06:51 (UTC)
冷麵[編輯]
請修復繁體模式下錯誤轉換:「冷麵」,正確轉換應為「冷面」。出錯頁面:冷麵梟雄、冷麵虎等。其他說明:只要頁面以簡體寫成就會發生錯誤。--SingBow(留言) 2024年6月19日 (三) 16:39 (UTC)
漢堡[編輯]
請修復簡體模式下錯誤轉換:「漢堡」,正確轉換應為「漢堡選單」。出錯頁面:漢堡選單。其他說明:標題被轉換為漢堡--SingBow(留言) 2024年7月3日 (三) 23:14 (UTC)
管須蟹[編輯]
請修復繁體模式下錯誤轉換:「管須蟹」,正確轉換應為「管鬚蟹」。--紺野夢人 2024年7月6日 (六) 16:44 (UTC)