-
07月13日
-
robots.txt在石家庄网站优化中站着很重要的部分,什么是robots?robots有什么用呢?下面石家庄SEO小丑就给大家来说下。
robots.txt协议也成爬虫协议,机器人协议等,全称是网络爬虫排除标准,网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不可以抓取。有没有robots的网站抓取效果是不同的,就好比下图。
那么知道了这些以后我们可以拿robots.txt来做什么?
1.优化蜘蛛爬行
(1)提高爬行效率
为什么这么说呢?上面也说到了我们可以用robots来控制蜘蛛可以和不可以抓取的页面,我们现在完全就可以放蜘蛛不去抓也一些没有必要的文件和代码,比如一些js,一些会员的文件目录等等。
因为一个网站蜘蛛的抓取频率和抓取时间是有限制的,当然可能好的网站抓取频次和抓取时间要比新站大的多。那么知道了蜘蛛抓取网站是有时间的,我们就要在这些时间内提高他的抓取效率,也就是刚才我们说的把一些没有必要的文件夹和目录屏蔽掉,不让蜘蛛去抓取。
(2)减少带宽消耗
假如一个网站在同一时间有大量的不同的蜘蛛去爬行你的网站,那么势必会影响宽带的消耗,导致网站打开速度变慢,所以我们可以通过屏蔽一些没有用的蜘蛛来禁止他们爬行我们的网站,来减少宽带的消耗。
有的新手可能会说,网站不就是让蜘蛛爬行抓取的吗,为什么要屏蔽呢?因为互联网不止一个百度蜘蛛,像国内常见的还有360的蜘蛛,搜狗的蜘蛛等等,国外的呢?谷歌蜘蛛,当然还有一些其他乱七八糟的垃圾蜘蛛,我们可以根据自身站点的实际情况屏蔽掉一些没有的蜘蛛。
就拿我的石家庄SEO博客来说,已经屏蔽了许多国外的垃圾蜘蛛,因为这些蜘蛛完全对于我的博客排名没有任何作用,所以就给予屏蔽。我现在屏蔽的垃圾蜘蛛有SemrushBot、semanticbot、MJ12bot、WBSearchBot、BLEXBot、wotbox等,因为这些都是一些国外的蜘蛛,当然也还有其他许多的,在这里我并没有屏蔽,因为他们很少或者没有来抓取过我的网站。
(3)防止双收录
防止网站双收录,什么叫双收录呢?就是同一个内容有不同的地址,我们可以通过robots来屏蔽蜘蛛抓取其中的一条。
2.提交网站地图
什么是提交地图呢?就是在robots里面写上自己网站地图的网址,有人纳闷了,为什么要在robts里面写?不是应该百度里面提交的吗?如果你经常查看网站日志的话就会发现,任何蜘蛛访问一个网站首先都会访问robots文件,这也就是为什么屏蔽蜘蛛会管用,因为他发现你屏蔽他了,他就不会在去访问你的网站了。因为会首先访问robtos,所以我们把网站地图放在这个文件里能使蜘蛛第一时间爬到地图的页面,能够更好的给网站带来收录的效果。
如何在自己网站设置robots.txt
很简单,只需要三步就完全OK了。
1.新建robots.txt
记事本重命名就可以了,无需多说
2.编辑内容
就是根据网站的情况来写自己的内容,有的人会说,我想让所有蜘蛛抓取所有的内容该怎么写呢?这个最简单了,里面留空就行,他就会默认是这个效果了。
推荐阅读:robots.txt的写法详解
3.上传到根目录
记住,是上传到网站根目录,一定要是根目录,否则是无效的。
注意:robots.txt文件名必须都是小写,否则无效。
robots.txt必须放倒网站根目录
本文由小丑SEO博客首发,转载请注明出处。
文章名称:robots.txt详解与网站优化技巧