-
07月13日
-
很多石家庄SEO可能对于robots的写法还不是很了解,今天小丑就来给大家说下,保证你看完自己写robots绝对妥妥的没问题。
简单的来说一个robots需要用到的就是User-agent、Disallow和Allow,下面我们来一个一个的分开讲解。
User-agent的用法
User-agent来说一般来说就是跟某一个蜘蛛的名字,比如:
User-agent: Baiduspider这就是百度蜘蛛,User-agent: Googlebot就是谷歌蜘蛛。
这是什么意思呢?因为蜘蛛太多了,想要单独去控制特定的某一个蜘蛛的时候就需要这么写。
还有一种写法就是User-agent: *,这里的*是一个通配符,表示所有的蜘蛛。
注意:所有冒号的后面必须加空格,否则无效。包括下面的Disallow等也是。
Disallow的用法
在来说Disallow,这个是什么意思呢?他的意思就是不允许蜘蛛抓取。
比如我想让蜘蛛不抓取我网站的a目录,那么就写成Disallow: /a
Disallow: / 这个就是不允许收录所有的意思。
那么问题来了,我们知道怎么样去屏蔽一个目录之后,我想要蜘蛛不收录我的动态URL应该怎么办?怎样禁止搜索引擎收录动态URL?应该怎么写呢?
答案就是:Disallow: *?*
为什么是这样呢?上面我们说过了,*是通配符。所以这个的意思就是只要URL中包含“?”的都不收录不抓取,为什么是“?”而不是别的呢?因为一般的动态URL找那个都会包含一些“?”“=”等特殊字符,我这里只是举例,当然大家也可以去换一个别的特征字符。
会了禁止某个目录,也会了禁止动态RUL,但是如果我们想要被禁止抓取的不是目录也不是动态URL,这个时候我们该怎么办呢?往下看。
禁止某个目录下的html文件,这里我们以a目录来举例。
Disallow: /a/*.html
这个是什么意思呢?禁止抓取网站a目录下的所有html文件,*是通配符,其实简单的说白了就是找特征字符而已。
禁止某个目录下的固定开头的文件
Disallow: /a/ps*
这里列举的是a目录下的ps开头的文件。
会了这些就够了吗?当然不是,比如我们的后台登录地址应该怎么禁止呢?
有些人可能要说了,直接Disallow文件名不就行了吗,这个确实是可以,但是大家有没有想过,如果你这么写岂不是把后台地址给暴漏了?大大的降低了网站的安全性。到底怎么写?很简单,还是找特政字符。我们以后台登录地址为admin来举例。
如何禁止后台目录为admin的文件?
Disallow: /adm*
明白了吗,不要写全,后面的可以用通配符代替,当然也可以写ad两个字母,就是不要写全就行了,这里需要注意的是,如果你写ad,要记得查看网站其他目录有没有ad开头的,以防被误封。
Allow的用法
Allow的意思是允许收录,和Disallow正好相反。
Allow: / 允许收录全站
用法基本上都是一样的。
Allow: .jpg$
允许搜索引擎收录所有.jpg后缀的文件。$和*号一样,都是通配符。
Allow: .html$
允许搜索引擎收录所有.html后缀的文件
允许收录html后缀的页面但是不允许收录php后缀的页面应该怎么写?
Allow: .html$
Dsiallow: .php$
如果你有耐心看到这里估计会有点懵了,既然$和*都是通配符,那应该怎么写?很多人都是理解成*是disallow的通配符,$是allow的通配符,其实是错误的。
* 表示 所有
$ 表示 某一类
就到这里吧,如果还有不太明白的可以私信我。
推荐阅读:robots.txt详解与网站优化技巧
本文由小丑SEO博客首发,转载请注明出处。