第39章
Disallow :
该项的值用于描述不希望被访问到的一个URL,这个URL 可以是一条完整的路径,也
可以是部分的,任何以Disallow 开头的URL 均不会被robot 访问到。例如"Disallow: /help"
对/help.html 和/help/index.html 都不允许搜索引擎访问,而"Disallow: /help/"则允许robot 访
问/help.html,而不能访问/help/index.html 。
任何一条Disallow 记录为空,说明该网站的所有部分都允许被访问,在"/robots.txt"文件
中,至少要有一条Disallow 记录。如果 "/robots.txt"是一个空文件,则对于所有的搜索引擎
robot,该网站都是开放的。
3、一些robots.txt 基本的用法:
A. 禁止所有搜索引擎访问网站的任何部分:
User-agent: *
Disallow: /
B. 允许所有的robot 访问
User-agent: *
Disallow:
或者也可以建一个空文件 "/robots.txt" file
C. 禁止所有搜索引擎访问网站的几个部分(下例中的cgi-bin、tmp、private 目录)
User-agent: *
第 86 页
----------------------- Page 95-----------------------
搜索引擎优化魔法书 SEO Magic Book 浩维互动免费电子书 timev
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/
D. 禁止某个搜索引擎的访问(下例中的BadBot )
User-agent: BadBot
Disallow: /
E. 只允许某个搜索引擎的访问(下例中的WebCrawler )
User-agent: WebCrawler
Disallow:
User-agent: *
Disallow: /
F. 常见搜索引擎机器人Robots 名字
表 6-8-1 常见搜索引擎机器人 Robots 名字
名 称 搜 索 引 擎
Baiduspider http://baidu
Scooter http://altavista
ia_archiver http://alexa
Googlebot http://google
FAST-WebCrawler http://alltheweb
Slurp http://inktomi
MSNBOT http://search.msn
4、robots.txt 举例
下面是一些著名站点的robots.txt:
http://cnn/robots.txt
http://google/robots.txt
http://ibm/robots.txt
http://sun/robots.txt
http://eachnet/robots.txt
5、常见robots.txt 错误
A. 颠倒了顺序
错误写成:
User-agent: *
Disallow: GoogleBot
第 87 页
----------------------- Page 96-----------------------
搜索引擎优化魔法书 SEO Magic Book 浩维互动免费电子书 timev
正确的应该是:
User-agent: GoogleBot
Disallow: *
B. 把多个禁止命令放在一行中
例如错误写成:
Disallow: /css/ /cgi-bin/ /images/
正确的应该是:
Disallow: /css/
Disallow: /cgi-bin/
Disallow: /images/
C. 行前有大量空格
例如写成:
Disallow: /cgi-bin/
尽管在标准没有谈到这个,但是这种方式很容易出问题。
D. 404 重定向到另外一个页面
当Robot 访问很多没有设置 robots.txt 文件的站点时,会被自动 404 重定向到另外
一个Html 页面。这时Robot 常常会以处理robots.txt 文件的方式处理这个Html 页面文
件。虽然一般这样没有什么问题,但是最好能放一个空白的 robots.txt 文件在站点根目
录下。
E. 采用大写。例如
USER-AGENT: EXCITE
DISALLOW:
虽然标准是没有大小写的,但是目录和文件名应该小写:
user-agent:GoogleBot
disallow:
F. 语法中只有Disallow,没有Allow
错误的写法是:
User-agent: Baiduspider
Disallow: /john/
allow: /jane/
G. 忘记了斜杠/
错误写作:
User-agent: Baiduspider
Disallow: css
正确的应该是:
User-agent: Baiduspider
Disallow: /css/
下面一个小工具专门检查 robots.txt 文件的有效性:
http://searchengineworld/cgi-bin/robotcheck.cgi
第 88 页
----------------------- Page 97-----------------------
搜索引擎优化魔法书 SEO Magic Book 浩维互动免费电子书 timev
五、链接锚文本
什么是链接锚文本?