杭州网站维护:谈谈如何应对爬虫反爬
原创 2020-01-22 19:42:53

相信大家的网站都有被爬虫爬过,导致许多核心数据都被竞争对手获得了。如果非得要研究的话,爬虫在合适的情况下也是可以被防止的。

我们该怎么防止爬虫呢?知己知彼才能找到合理应对方式,咱们先从最低级的爬虫开始聊起。

页面分为动态和静态,静态就是纯html文件,这样的数据不要太好爬,直接获取你的网页地址就好了。我们可以通过request的方式获取到页面源码,再通过bs4库按规则对数据提取。

什么是动态页面呢,有一些公司通过调用接口,然后由js来渲染的叫动态页面。如果接口简单,可以直接调接口获取,但是遇到加密的接口就只能研究其js文件,通过查询其加密方法进行截取,这也是常用手段。

可是还有更简单的办法,无需破译接口,只要让浏览器模仿人的行为即可。目前小编用的最多的就是这个方式。

既然要模拟人来浏览网页,就要研究人的特征。主要有以下几个点。

1)浏览速度不快,看的数据也不多

2)浏览器相关参数要有,比如要有cookies, userAgent,以及referce更为重要。