今天遇到个不讲武德的国外蜘蛛爬虫!

张小编 1.3K
来,让大家伙先看看你

Mozilla/5.0 (compatible; DataForSeoBot/1.0; +https://dataforseo.com/dataforseo-bot)

最近又有客户反馈,说日志某天突然蜘蛛暴涨,本来以为要爆收录,没想到看了一下日志,心凉了半截。

大部分都是这个蜘蛛爬虫,DataForSeoBot,看样子应该是国外的,毕竟带了链接地址。了解了一下,是国外某seo运营公司的,相关资料比较少,算了,既然是国外的蜘蛛爬虫,应该是遵循robots协议吧,没多想,让客户在robots里加上:

User-Agent: DataForSeoBot
Disallow: /

然后再清空日志,让客户继续观察,毕竟其他正常蜘蛛收录没受到影响,我也没怎么放在心上。(PS:一般我池子里的蜘蛛,百度占90%以上,搜狗360神马占据其他10%,当然不算谷歌必应yandex等蜘蛛,那些蜘蛛虽然勤快,但目前客户没有这个需求,所以只是存着,不让它们抓取页面。至于垃圾的蜘蛛,比如今天这种,那是连门都不给放,直接禁掉。[得意]

一天一夜过去。

客户把我喊醒,给我看了一下日志,挖槽!

今天遇到个不讲武德的国外蜘蛛爬虫!

特么给你脸了是不。

那我就封禁该ip吧,立竿见影,日志没有出现该蜘蛛日志。

又过了一晚上,这次不用客户来说,我自己就监控到了,还是老套路!

我的乖乖,又出现了几十万,对方ip更换了,好吧,实在不行的话只能出必杀技了。

nginx配置文件
Server {
……
if ($http_user_agent ~ "DataForSeoBot/1.0" )
{
      return 403;
}
……
}

只能user-agent封杀了,经历了该事件,发现国外蜘蛛也没有那么所谓讲武德!看样子robots和ip封杀也不行,只能说遇到一个尽可能的通过user-agent进行封杀吧。

因为客户用的是他的优化程序,所以只能让其自己配置了,而我自己也在自己的程序里添加了这个不讲武德爬虫的特征码,此事告一段落。

 

 

 

分享