搜狗大反擊
太惡劣了,搜狗完全無視任何 robots.txt,但它的條款中竟然蓄意欺騙人,說它會支援 robots.txt:
sogou spider 支持 robots 协议,您可以在网站的根目录放置 robots.txt。
robots.txt 的规则请参阅 http://www.robotstxt.org/。
但是新更新的 robots.txt 可能得过几个星期才能体现出效果来。
我的 robots.txt 中禁止搜尋和 indexing 的部份已經有一年半未動過了。之前已經封禁過一次的了,那次不記得是甚麼 robot,瘋狂地下載,連帶網站被 DoS 了。但最近忽然發現搜狗又很頻密地 index 我的禁地。雖然不如有些人所說每秒一次那麼令人髪指,但也好不到那裏去,這些情況很多人都投訴過。對於這些流氓搜尋引擎,我也不是甚麼善男信女:
Rewritecond %{HTTP_USER_AGENT} "^Sogou"
RewriteRule .* http://www.sogou.com/ [L,R=301]
一招還嫌不夠,再來另一招必殺技:
# iptables -A INPUT -m limit -p tcp –tcp-flags SYN,RST,ACK,FIN ACK -s 220.181.0.0/16 –dport 80 –limit 3/minute –limit-burst 1
# iptables -A INPUT -j DROP -p tcp -s 220.181.0.0/16 –dport 80
# iptables -A INPUT -j DROP -p tcp -s 220.181.0.0/16 –dport 80
不是單純的 DROP,我是有心玩的。還有,似乎搜狗會動用多個 IP 做 robot,一個個 IP 來 block 不及圍骰通殺來得痛快。況且百度也是用同一段 IP 的,就讓百度和搜狗自行決定每分鐘三個 packet 怎樣分配吧。
1 Response
2 Incoming Links
-
[...] Anthony Wong: 條 rule 好絕!正! XD [...]
-
[...] 很久沒看 Slashdot 了,稍為瀏覽一下就找到有趣的事:原來 AVG antivirus 會假扮 IE 6 來掃描網站。乍看好像沒甚麼問題,但致命的地方在於它做法粗暴,造成不少人反感,像某些大陸 search engine 一樣。 [...]
條 rule 好絕!正! XD