网站的robots.txt文件的作用是告诉搜索引擎,网站的哪些页面可以抓取,哪些页面不允许被抓取。

 

百度官方建议,当且仅当你的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。

网站的哪些内容是应该禁止搜索引擎抓取的呢?答案如下:

1、重复的页面。如果网站的重复页面太多,会大大浪费搜索引擎抓取网站的时间,影响蜘蛛的友好度。比如:网站以前是动态页面,现在做了伪静态,就会生成大量重复的页面。这个时候我们需要把这些重复的页面通过robots.txt文件来禁止搜索引擎抓取。

2、重复的图片。如果网站套用的是网络上的模板,那么里面肯定会有许多重复的图片。这也是搜索引擎不喜欢的。另外我们也可以将网站根目录里面的模板文件夹通过robots.txt禁止掉。一般模板目录的文件目录是:templets。

3、缓存目录。许多cms程序都有缓存目录,这种缓存目录的优点能够十分有用的晋升网站的拜访速度,削减网站带宽,对用户体会也是极好的。不过,这样的缓存目录会让搜索引擎蜘蛛进行重复的抓取。所以也有必要禁止掉。

4、隐密性文件(存疑)。如果我们网站有私密文件,不想暴露给搜索引擎,也可以通过robots.txt进行屏蔽。不过这里有一个问题,如果我们把网站的私密文件声明在了robots.txt里面,虽然搜索引擎不会抓取收录,但是生活中难免会有一些居心叵测的人,他们可以非常轻易地通过你的robots.txt协议发现网站的私密性文件,这个是很不安全的。就像我们网站的后台目录,如果声明在robots.txt文件里,就很容易被别有用心的黑客加以利用,最后危害网站的利益。好在的是,现在搜索引擎越来越智能了,对于网站的后台目录能极好地辨认,并抛弃索引。所以像网站后台这种私密性的目录就没有必要通过robots.txt屏蔽了。

上面说的是网站的哪些内容不应该屏蔽搜索引擎,下面再来说说robots.txt的书写案例:

  例1:禁止所有搜索引擎抓取网站的任何部分。

  User-agent: *

  Disallow: /

  例2:允许所有的搜索引擎抓取网站的任何部分。

  User-agent: *

  Disallow:

  例3:仅禁止Baiduspider抓取你的网站

  User-agent: Baiduspider

  Disallow: /

  例4:仅允许Baiduspider抓取你的网站

  User-agent: Baiduspider

  Disallow:

  例5:禁止spider抓取特定目录

  User-agent: *

  Disallow: /cgi-bin/

  Disallow: /tmp/

  Disallow: /data/

  例6:允许抓取特定目录中的部分url

  User-agent: *

  Allow: /a/b.htm

  Disallow: /a/

  注:只允许抓取a目录下的b.htm文件。

  例7:禁止抓取网站中所有的动态页面

  User-agent: *

  Disallow: /*?*

  例8:禁止搜索引擎抓取网站上所有图片。

  User-agent: *

  Disallow: /*.jpg$

  Disallow: /*.jpeg$

  Disallow: /*.gif$

  Disallow: /*.png$

  Disallow: /*.bmp$

  ("$" 结束符;"*"任意符)

  上面是robots.txt书写的8个案例,更为详细的设置可以参考(点击):robots.txt百度百科