乐读窝

搜索引擎优化魔法书

乐读窝 > 科幻小说 > 搜索引擎优化魔法书

第39章

书籍名:《搜索引擎优化魔法书》    作者:姚志国


                                    

        Disallow  :

        该项的值用于描述不希望被访问到的一个URL,这个URL  可以是一条完整的路径,也

        可以是部分的,任何以Disallow                    开头的URL  均不会被robot  访问到。例如"Disallow:      /help"

        对/help.html  和/help/index.html  都不允许搜索引擎访问,而"Disallow:                /help/"则允许robot  访

        问/help.html,而不能访问/help/index.html  。

        任何一条Disallow  记录为空,说明该网站的所有部分都允许被访问,在"/robots.txt"文件

        中,至少要有一条Disallow  记录。如果    "/robots.txt"是一个空文件,则对于所有的搜索引擎

        robot,该网站都是开放的。

        3、一些robots.txt  基本的用法:

        A.  禁止所有搜索引擎访问网站的任何部分:

        User-agent:  *

        Disallow:  /

        B.  允许所有的robot  访问

        User-agent:  *

        Disallow:

        或者也可以建一个空文件    "/robots.txt"  file

        C.  禁止所有搜索引擎访问网站的几个部分(下例中的cgi-bin、tmp、private    目录)

        User-agent:  *

        第  86  页

        -----------------------  Page  95-----------------------

        搜索引擎优化魔法书  SEO  Magic  Book    浩维互动免费电子书  timev

        Disallow:  /cgi-bin/

        Disallow:  /tmp/

        Disallow:  /private/

        D.  禁止某个搜索引擎的访问(下例中的BadBot  )

        User-agent:  BadBot

        Disallow:  /

        E.  只允许某个搜索引擎的访问(下例中的WebCrawler  )

        User-agent:  WebCrawler

        Disallow:

        User-agent:  *

        Disallow:  /

        F.  常见搜索引擎机器人Robots  名字

        表  6-8-1    常见搜索引擎机器人  Robots  名字

        名      称                                                搜  索  引  擎

        Baiduspider                                  http://baidu

        Scooter                                          http://altavista

        ia_archiver                                  http://alexa

        Googlebot                                      http://google

        FAST-WebCrawler                          http://alltheweb

        Slurp                                              http://inktomi

        MSNBOT                                            http://search.msn

        4、robots.txt  举例

        下面是一些著名站点的robots.txt:

        http://cnn/robots.txt

        http://google/robots.txt

        http://ibm/robots.txt

        http://sun/robots.txt

        http://eachnet/robots.txt

        5、常见robots.txt  错误

        A.  颠倒了顺序

        错误写成:

        User-agent:  *

        Disallow:  GoogleBot

        第  87  页

        -----------------------  Page  96-----------------------

        搜索引擎优化魔法书  SEO  Magic  Book    浩维互动免费电子书  timev

        正确的应该是:

        User-agent:  GoogleBot

        Disallow:  *

        B.  把多个禁止命令放在一行中

        例如错误写成:

        Disallow:  /css/  /cgi-bin/  /images/

        正确的应该是:

        Disallow:  /css/

        Disallow:  /cgi-bin/

        Disallow:  /images/

        C.  行前有大量空格

        例如写成:

        Disallow:  /cgi-bin/

        尽管在标准没有谈到这个,但是这种方式很容易出问题。

        D.  404  重定向到另外一个页面

        当Robot  访问很多没有设置  robots.txt  文件的站点时,会被自动  404  重定向到另外

        一个Html  页面。这时Robot  常常会以处理robots.txt  文件的方式处理这个Html  页面文

        件。虽然一般这样没有什么问题,但是最好能放一个空白的  robots.txt    文件在站点根目

        录下。

        E.  采用大写。例如

        USER-AGENT:  EXCITE

        DISALLOW:

        虽然标准是没有大小写的,但是目录和文件名应该小写:

        user-agent:GoogleBot

        disallow:

        F.  语法中只有Disallow,没有Allow

        错误的写法是:

        User-agent:  Baiduspider

        Disallow:  /john/

        allow:  /jane/

        G.  忘记了斜杠/

        错误写作:

        User-agent:  Baiduspider

        Disallow:  css

        正确的应该是:

        User-agent:  Baiduspider

        Disallow:  /css/

        下面一个小工具专门检查  robots.txt  文件的有效性:

        http://searchengineworld/cgi-bin/robotcheck.cgi

        第  88  页

        -----------------------  Page  97-----------------------

        搜索引擎优化魔法书  SEO  Magic  Book    浩维互动免费电子书  timev

        五、链接锚文本

        什么是链接锚文本?