搜狗大反擊
2008-08-02太惡劣了,搜狗完全無視任何 robots.txt,但它的條款中竟然蓄意欺騙人,說它會支援 robots.txt:
sogou spider 支持 robots 协议,您可以在网站的根目录放置 robots.txt。
robots.txt 的规则请参阅 http://www.robotstxt.org/。
但是新更新的 robots.txt 可能得过几个星期才能体现出效果来。
我的 robots.txt 中禁止搜尋和 indexing 的部份已經有一年半未動過了。之前已經封禁過一次的了,那次不記得是甚麼 robot,瘋狂地下載,連帶網站被 DoS 了。但最近忽然發現搜狗又很頻密地 index 我的禁地。雖然不如有些人所說每秒一次那麼令人髪指,但也好不到那裏去,這些情況很多人都投訴過。對於這些流氓搜尋引擎,我也不是甚麼善男信女:
Rewritecond %{HTTP_USER_AGENT} "^Sogou"
RewriteRule .* http://www.sogou.com/ [L,R=301]
一招還嫌不夠,再來另一招必殺技:
iptables -A INPUT -m limit -p tcp --tcp-flags SYN,RST,ACK,FIN ACK -s 220.181.0.0/16 --dport 80 --limit 3/minute --limit-burst 1
iptables -A INPUT -j DROP -p tcp -s 220.181.0.0/16 --dport 80
不是單純的 DROP,我是有心玩的。還有,似乎搜狗會動用多個 IP 做 robot,一個個 IP 來 block 不及圍骰通殺來得痛快。況且百度也是用同一段 IP 的,就讓百度和搜狗自行決定每分鐘三個 packet 怎樣分配吧。










