第39章

        Disallow  :

        该项的值用于描述不希望被访问到的一个URL，这个URL  可以是一条完整的路径，也

        可以是部分的，任何以Disallow                    开头的URL  均不会被robot  访问到。例如"Disallow:      /help"

        对/help.html  和/help/index.html  都不允许搜索引擎访问，而"Disallow:                /help/"则允许robot  访

        问/help.html，而不能访问/help/index.html  。

        任何一条Disallow  记录为空，说明该网站的所有部分都允许被访问，在"/robots.txt"文件

        中，至少要有一条Disallow  记录。如果    "/robots.txt"是一个空文件，则对于所有的搜索引擎

        robot，该网站都是开放的。

        3、一些robots.txt  基本的用法：

        A.  禁止所有搜索引擎访问网站的任何部分：

        User-agent:  *

        Disallow:  /

        B.  允许所有的robot  访问

        User-agent:  *

        Disallow:

        或者也可以建一个空文件    "/robots.txt"  file

        C.  禁止所有搜索引擎访问网站的几个部分（下例中的cgi-bin、tmp、private    目录）

        User-agent:  *

        第  86  页

        -----------------------  Page  95-----------------------

        搜索引擎优化魔法书  SEO  Magic  Book    浩维互动免费电子书  timev

        Disallow:  /cgi-bin/

        Disallow:  /tmp/

        Disallow:  /private/

        D.  禁止某个搜索引擎的访问（下例中的BadBot  ）

        User-agent:  BadBot

        Disallow:  /

        E.  只允许某个搜索引擎的访问（下例中的WebCrawler  ）

        User-agent:  WebCrawler

        Disallow:

        User-agent:  *

        Disallow:  /

        F.  常见搜索引擎机器人Robots  名字

        表  6-8-1    常见搜索引擎机器人  Robots  名字

        名      称                                                搜  索  引  擎

        Baiduspider                                  http://baidu

        Scooter                                          http://altavista

        ia_archiver                                  http://alexa

        Googlebot                                      http://google

        FAST-WebCrawler                          http://alltheweb

        Slurp                                              http://inktomi

        MSNBOT                                            http://search.msn

        4、robots.txt  举例

        下面是一些著名站点的robots.txt：

        http://cnn/robots.txt

        http://google/robots.txt

        http://ibm/robots.txt

        http://sun/robots.txt

        http://eachnet/robots.txt

        5、常见robots.txt  错误

        A.  颠倒了顺序

        错误写成：

        User-agent:  *

        Disallow:  GoogleBot

        第  87  页

        -----------------------  Page  96-----------------------

        搜索引擎优化魔法书  SEO  Magic  Book    浩维互动免费电子书  timev

        正确的应该是：

        User-agent:  GoogleBot

        Disallow:  *

        B.  把多个禁止命令放在一行中

        例如错误写成：

        Disallow:  /css/  /cgi-bin/  /images/

        正确的应该是：

        Disallow:  /css/

        Disallow:  /cgi-bin/

        Disallow:  /images/

        C.  行前有大量空格

        例如写成：

        Disallow:  /cgi-bin/

        尽管在标准没有谈到这个，但是这种方式很容易出问题。

        D.  404  重定向到另外一个页面

        当Robot  访问很多没有设置  robots.txt  文件的站点时，会被自动  404  重定向到另外

        一个Html  页面。这时Robot  常常会以处理robots.txt  文件的方式处理这个Html  页面文

        件。虽然一般这样没有什么问题，但是最好能放一个空白的  robots.txt    文件在站点根目

        录下。

        E.  采用大写。例如

        USER-AGENT:  EXCITE

        DISALLOW:

        虽然标准是没有大小写的，但是目录和文件名应该小写：

        user-agent:GoogleBot

        disallow:

        F.  语法中只有Disallow，没有Allow

        错误的写法是：

        User-agent:  Baiduspider

        Disallow:  /john/

        allow:  /jane/

        G.  忘记了斜杠/

        错误写作：

        User-agent:  Baiduspider

        Disallow:  css

        正确的应该是：

        User-agent:  Baiduspider

        Disallow:  /css/

        下面一个小工具专门检查  robots.txt  文件的有效性：

        http://searchengineworld/cgi-bin/robotcheck.cgi

        第  88  页

        -----------------------  Page  97-----------------------

        搜索引擎优化魔法书  SEO  Magic  Book    浩维互动免费电子书  timev

        五、链接锚文本

        什么是链接锚文本？