第24章
这是最常用的方式,因为这个方法可以让
网络蜘蛛并行处理,提高其抓取速度。
深度优先 是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线
路之后再转入下一个起始页,继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比
较容易。
第46 页
----------------------- Page 55-----------------------
搜索引擎优化魔法书 SEO Magic Book 浩维互动免费电子书 timev
由于不可能抓取所有的网页,有些网络蜘蛛对一些不太重要的网站,设置了访问的层数。
例如上图 A 为起始网页,属于 0 层,B、C、D、E、F 属于第 1 层,G、H 属于第 2 层,I
属于第3 层。如果网络蜘蛛设置的访问层数为2 的话,网页I 是不会被访问到的。这也让有
些网站上一部分网页能够在搜索引擎上搜索到,另外一部分不能被搜索到。对于网站设计者
来说,扁平化的网站结构设计有助于搜索引擎抓取其更多的网页。
网络蜘蛛在访问网站网页的时候,经常会遇到加密数据和网页权限的问题,有些网页是
需要会员权限才能访问。当然,网站的所有者可以通过协议让网络蜘蛛不去抓取,但对于一
些出售报告的网站,他们希望搜索引擎能搜索到他们的报告,但又不能完全免费的让搜索者
查看,这样就需要给网络蜘蛛提供相应的用户名和密码。网络蜘蛛可以通过所给的权限对这
些网页进行网页抓取,从而提供搜索。而当搜索者点击查看该网页的时候,同样需要搜索者
提供相应的权限验证。
二、如何辨别搜索引擎机器人身份
搜索引擎派出他们的搜索机器人去访问、索引网站内容,网站管理员也默认、欢迎它们
来访。但是由于搜索引擎派机器人来访会在一定程度上影响网站性能,因此并非所有的机器
人都是无害的,有一些非法机器人伪装成主流搜索引擎漫游器对网站大量遍历,并且不遵循
robots.txt 规范,会严重拖垮网站性能而又无其它益处。因此,网站管理员需要验证每个机器
人身份是否合法。
在你的服务器日志文件中,可见每次访问的路径和相应的 IP 地址,如果是机器人来访,
则user-agent 会显示 Googlebot 或MSNBot 等搜索引擎漫游器名称,每个搜索引擎都有自己
的user-agent,但仅有这个还不足以证明这个机器人的合法性,因为很多垃圾制造者可能将
他们的机器人也命名为Googlebot,以伪装蒙混进入网站,大肆采掘内容。
目前,主流搜索引擎都建议网站管理员通过这种方式来辨别真实的机器人身份:通过
DNS 反向查询找出搜索引擎机器人IP 地址对应的主机名称;用主机名查找IP 地址以确认该
主机名与IP 地址匹配。
首先,使用DNS 反向查询(Reverse DNS Lookup),找出机器人IP 地址对应的主机名
称。主流搜索引擎的主机名称通常情况下应是这样的:
Google : 主 机 名 称 应 包 含 于 googlebot 域 名 中 , 如 :
crawl-66-249-66-1.googlebot;
MSN : 主 机 名 称 应 包 含 于 search.live 域 名 中 , 如 :
livebot-207-46-98-149.search.live;
Yahoo:主机名称应包含于inktomisearch 域名中,如:ab1164.inktomisearch。
最后,做一次 DNS 查询,用主机名查找IP 地址(Forward DNS Lookup ),以确认该主
机名与IP 地址匹配。由此证明该机器人是合法的。
现在,如果发现一个机器人将自己伪装成合法搜索引擎漫游器,你就可以通过服务器上
的设置来阻止这个非法机器人。
第二节 超链分析
最近几年,许多研究者发现,WWW 上超链结构是个非常丰富和重要的资源,如果能
第47 页
----------------------- Page 56-----------------------
搜索引擎优化魔法书 SEO Magic Book 浩维互动免费电子书 timev
够充分利用的话,可以极大地提高检索结果的质量。超链分析技术,是新一代搜索引擎的关
键技术。
一、基本原理
超链分析的基本原理是:在某次搜索的所有结果中,被其他网页用超链指向得越多的网
页,其价值就越高,就越应该在结果排序中排到前面。
超链分析是一种引用投票机制,对于静态网页或者网站主页,它具有一定的合理性,因
为这样的网页容易根据其在互联网上受到的评价产生不同的超链指向量,超链分析的结果可
以反映网页的重要程度,从而给用户提供更重要、更有价值的搜索结果。
搜索引擎,并不能真正理解网页上的内容,它只能机械地匹配网页上的文字。它收集了
互联网上几千万到几十亿个网页并对网页中的每一个文字(即关键词)进行索引,建立索引
数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词
的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索
关键词的相关度高低,依次排列。
搜索引擎在查询时主要根据一个站点的内容与查询词的关联程度进行排序。对于一个站
点的内容搜索引擎则是根据标题、关键词、描述、页面开始部分的内容以及这些内容本身之
间的关联程度以及一个站点在整个网络上的关联程度来确定的。
使用超链分析技术,除要分析索引网页本身的文字,还要分析索引所有指向该网页的链
接的 URL、AnchorText,甚至链接周围的文字。所以,有时候,即使某个网页 A 中并没有
某个词,比如“软件”,但如果有别的网页B 用链接“软件”指向这个网页A,那么用户搜
索“软件”时也能找到网页A 。而且,如果有越多网页(C、D、E、F……)用名为“软件”
的链接指向这个网页 A,或者给出这个链接的源网页(B、C、D、E、F……)越优秀,那
么网页A 在用户搜索“超链分析”时也会被认为相关度越高,排序也会越靠前。
二、工作步骤
1、从互联网上抓取网页
专门用于检索信息的Robot 程序像蜘蛛一样在网络间爬来爬去,利用能够从互联网上自
动收集网页的 Spider 系统程序, 自动访问互联网,并沿着任何网页中的所有 URL 爬到其
它网页,重复这过程,并把爬过的所有网页收集回来。随着互联网的迅速发展,检索所有新
出现的网页变得越来越困难。因此,在Wan-derer 基础上,一些编程者将传统的 Spider 程序
工作原理作了些改进。其设想是,既然所有网页都可能有连向其他网站的链接,那么从一个
网站开始,跟踪所有网页上的所有链接,就有可能检索整个互联网。
2、建立索引数据库
由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在
URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其它网页
的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面文字
中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。