限制爬虫访问的频率和禁止访问某些页面
原创 2019-12-16 09:47:25

在优化网站的时候,经常会遇到这样的问题:客户网站内页数特别大,导致引爬虫的时候爬取压力特别大。这个时候我们该怎么办呢?

小编有几种方案供您选择,其中一种便是修改robots文件。robots文件的主要作用是告诉爬虫,该按照什么样的规则来爬取我们的网站,这样的作用可以有效的防止爬虫访问敏感的资源目录,并且也能防止带宽被大量占用的问题。甚至我们要阻止某一个搜索引擎的爬虫来我们网站,也是可以的!

null

1)具体我们会用到的参数有User-agent,这个是判断当前爬虫是什么引擎的,比如说百度的就是Baiduspider。只要设置成了它,接下来我们就可以写针对Baiduspider的规则。

2)怎么样去禁止爬虫访问我们的目录呢?Disallow是一个不错的选择,他能够屏蔽某些页面,甚至是某些目录。

3)如果需要使得网站爬取速度够快,我们还要经常设置一下sitemap文件,这个文件的作用是网站地图,能够减轻搜索引擎的负担,并且也能够减少网站服务器的负担,爬虫可以通过sitemap直接获取网站的有效链接。

以上便是SEO提升排名的技巧之一