MediaWiki討論:Robots.txt

關於robots.txt

Google前幾日剛剛發佈了新的robots.txt規範：[1], [2], [3]，各位看看我們的mediawiki:robots.txt有沒有需要優化的地方？--百無一用是書生 (☎) 2010年11月30日 (二) 14:18 (UTC)[回覆]

站內私隱保護

出於保護維基人私隱的考慮，我建議將WP:聚會、WP:即時聯繫維基人等頁面加入Mediawiki:Robots.txt的搜尋引擎屏蔽項目中（__NOINDEX__不能對子頁面起作用）。現尋求大家的意見，或請提出其他不宜對搜尋引擎公開的頁面。--Kegns ♖ 2012年12月13日 (四) 12:09 (UTC)[回覆]

自願公開資料的.......像我的FACEBOOK+新浪微博都是不在維基公開的......但在我們的鐵道迷網站也是不公開FB(其實也說過....不過因維護網站安全而刪了...因為這是個天津的車迷網).....但是公開微薄......像我基本上從來都沒有把自己的照片放到網絡上.....只不過有十餘張被不小心拍到還上過報紙.......但我從來也沒跟其他人說過........回正題.....過多的個人資料就不要放到網絡上來......像聚會一般應該是以帳號區分維基人的.....所以也只牽扯到帳號使用者容貌的問題......但最後強調......自願放上來就不要埋怨私隱問題.......在網絡上...除非你是很有名的人士.....不然不要把你的照片+姓名放上網絡......不然後果就是自己負責.......ltdccba--Jason--Lin⇒ 2012年12月13日 (四) 14:24 (UTC)[回覆]

(＋)支持--Lakokat 2012年12月14日 (五) 06:21 (UTC)[回覆]

將"Special:用戶貢獻"的子頁面加入到robots.txt

本主題或以下段落文字，移動自Wikipedia:互助客棧/技術。執行者：Jimmy-bot（留言） 2014年3月6日 (四) 14:42 (UTC)。[回覆]

請求將Special:用戶貢獻的子頁面加入到robots.txt中。因為我發現雖然那些頁面上有meta robots noindex，但是百度蜘蛛不支持noindex，所以用百度搜索「的用戶貢獻」，有70多頁的相關結果，但是Google搜尋沒有任何相關結果。所以我想能不能在MediaWiki:Robots.txt中加入以下內容：

Disallow: /*/Special:用户贡献/*
Disallow: /*/Special:%E7%94%A8%E6%88%B7%E8%B4%A1%E7%8C%AE/*

謝謝！--Chmarkine（留言） 2014年2月22日 (六) 23:32 (UTC)[回覆]

像是百度的bug吧而不是完全「不支持noindex」，不然怎麼可能「只有」70多頁。隨便一搜找到[4]，有人說robots.txt有時也沒用……Liangent（留言） 2014年2月23日 (日) 06:33 (UTC)[回覆]

好吧。--Chmarkine（留言） 2014年2月24日 (一) 04:05 (UTC)[回覆]

又有新發現：看起來所有特殊頁面都含有meta robots noindex,nofollow，但是百度搜索inurl:Special可以看到不少結果，其中多數是Special:用戶貢獻、Special:鏈出更改和Special:網絡書源，而且竟然第一頁就有這個，另外這些：從第34頁往後有異常多的垃圾連結。所以我還是覺得不管百度支不支持noindex，還是加上robots阻止比較好，我估計百度不敢明目張胆地忽略robots.txt，而且要阻止就把所有Special:開頭的連結全阻止掉。大家覺得怎樣？--Chmarkine（留言） 2014年2月24日 (一) 08:16 (UTC)[回覆]

很可惜，已經有人提及baidu的蜘蛛不一定遵守robots規範，或者可能蜘蛛robots規範實現有問題的。——路過圍觀的Sakamotosan 2014年2月24日 (一) 08:38 (UTC)[回覆]

曾經想過能否在解析層上開發一種插件，能根據用戶信息（如UA，訪問IP，用戶名等）和訪問的內容（特定頁面或其子頁面，分類等）進行控制（主要阻止訪問，如伺服器跳轉到白頁，或直接404之類），這樣就可以避免robots.txt或robot meta阻止實現的情況。但好像mw的解析hook上沒有readpage的hook……——路過圍觀的Sakamotosan 2014年2月24日 (一) 08:36 (UTC)[回覆]

既然是不一定，那為什麼不試試呢？確實根據UA提供不同內容是個更好的辦法，但不知能否實現。--Chmarkine（留言） 2014年2月24日 (一) 08:44 (UTC)[回覆]