高频率发布原创内容的网站比较容易遭到不真实搜索引擎蜘蛛的攻击,以窃取网站原创内容!那样如何分辨真伪搜索引擎蜘蛛呢?分辨后又如何去禁止不真实搜索引擎蜘蛛偷取网站内容呢?
1、什么是假蜘蛛?
搜索引擎爬虫大家称之为蜘蛛,假蜘蛛即伪装成搜索引擎的爬虫。目的就是掩人耳目的去爬取采集网站的内容。
普通的爬虫比较容易被站点发现屏蔽,对于搜索引擎蜘蛛站点都是没什么警惕心,期望多来抓取可以有效增加网站收录量和速度。
2、怎么样辨别假蜘蛛
网站日志会记录所有访问ip的请求头即user-agent,通过修改蜘蛛的请求头为搜索引擎公布的蜘蛛的UA名。
因此,大家光看日志是没办法直接分辨真伪蜘蛛的。大部分搜索引擎都是ip反查,譬如大家通过windows电脑cmd中用nslookp反查蜘蛛的ip可以获得到对应搜索引擎分析的为真蜘蛛,在这种办法下假蜘蛛没办法遁形。
但问题是假如不可以事实辨别假蜘蛛,内容被采集走了在屏蔽也失去了意义。
3、怎么样预防假蜘蛛抓取内容?
1、添加蜘蛛白名单
有的蜘蛛没办法支持反查,大家可以把这种蜘蛛的ip段添加白名单,同时大家对于网站反查到的蜘蛛ip经过人工确定之后,也同样加入白名单。可以预防程序出错时误屏蔽蜘蛛,与加快程序的响应速度。
2、原创保护防采集
对于其他的爬虫大家还要去测试同一个ip是不是有大段时间很多访问的行为,对于异常ip大家可以用验证码等方法验证,这也是基于大家拥有了通过ip辨别蜘蛛的首要条件下,可以防止误伤搜索引擎的抓取任务采集。
只须你的内容可以显示就能有方法采集,要想完全防止是不可能的,是双方之间的一场博弈。
以上就是《[网站排名优化]怎么样预防假蜘蛛抓取内容?》的全部内容,仅供站长朋友们互动交流学习,网站排名优化是一个需要坚持的过程,期望大伙一块一同进步。