第6章

                                    一千个人就有一千个搜索引擎：有人认为搜索引

        擎就是百度，有人认为搜索引擎就是Google，有人认为搜索引擎就是Yahoo  。

        如果非要给个定义，就让我们来看看微软大百科全书（MSN  Encarta）是怎么定义搜索

        引擎的吧：

        Search  Engine,  software  program  that  helps  users  find  information  stored  on  a  personal

        computer,  or  a  network  of  computers,  such  as  the  Internet.  A  user  enters  search  terms,

        typically  by  typing  a  keyword  or  phrase,  and  the  search  engine  retrieves  a  list  of  World

        Wide  Web    （WWW  ）    sites,  personal  computer  files,  or  documents,  either  by  scanning

        the  content  stored  on  the  computers  or  computer  networks  being  searched  or  by  parsing

        （analyzing）    an  index  of  their  stored  data.

        搜索引擎是帮助用户查找存储在个人电脑、计算机网络如互联网上的信息的软

        件程序。用户输入搜索项目，通常是通过录入一个关键词或短语，搜索引擎通过扫

        描被搜索的计算机和计算机网络，或者分解（分析）它们数据的索引，返回万维网

        站点、个人电脑文件或文档的列表。

        这个定义可能越看越模糊，那么以下章节的内容将会让你清晰地认识搜索引擎。

        第二节  搜索引擎的基本工作原理

        现在互联网上存在的网页数量是数以百亿千亿计的，这些网站存储在不同的服务器上，

        分布在世界各地的数据中心和机房。

        对于搜索引擎来说，要抓取互联网上所有的网页几乎是不可能的，从目前公布的数据来

        看，容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。一方面原因是抓

        取技术存在瓶颈，无法遍历所有网页，有许多网页无法从其它网页的链接中找到；另一个原

        因是存储技术和处理技术的问题，如果按照每个页面平均大小  20K    计算（包含图片），100

        亿网页的容量是  100×2000G  字节，即使能够存储，下载也存在问题（按照一台机器每秒下

        载20K  计算，需要  340  台机器不停的下载一年时间，才能把所有网页下载完毕）。同时，由

        于数据量太大，在提供搜索时也会有效率方面的影响。因此，许多搜索引擎的网络蜘蛛只是

        抓取那些重要的网页，而评价重要性的主要依据是某个网页的链接深度。

        有人会认为搜索引擎在接收到搜索请求时，会实时地从全球所有的服务器上查询信息，

        并把查询结果展示在用户面前，这其实是一种误解。如果搜索引擎是这样工作的，那么查询

        一条信息可能要等上好几年才能得到搜索结果，这还不包括期间网页发生的变化。

        实际上，搜索引擎会预先去拜访大量的网站，并把这些网页的部分信息预先存储在自己

        的服务器上，这样，当用户搜索的时候，其实是在搜索引擎自己的服务器中进行查询，就像

        我们在自己的电脑中查询文件一样。

        搜索引擎是非常复杂的技术，但是其基本原理并不复杂，其基本技术包括抓取、索引、

        排序。

        第4  页

        -----------------------  Page  13-----------------------

        搜索引擎优化魔法书  SEO  Magic  Book    浩维互动免费电子书  timev

        图1-2-1      搜索引擎工作原理

        一、抓取

        搜索引擎首先会派出一种被称作“蜘蛛”或者是“机器人”的软件，根据一定规则扫描

        存在于互联网上的网站，并沿着网页上的链接从一个网页到另一个网页，从一个网站到另一

        个网站。为保证采集的资料最新，它还会回访已抓取过的网页。

        二、索引

        由分析索引系统程序对收集回来的网页进行分析，提取相关网页信息（包括网页所在

        URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其它网页

        的链接关系等），根据一定的相关度算法进行大量复杂计算，得到每一个网页针对页面文字

        中及超链中每一个关键词的相关度（或重要性），然后用这些相关信息建立网页索引数据库。

        三、排序

        当用户输入关键词搜索后，由搜索系统程序从网页索引数据库中找到符合该关键词的所

        有相关网页。因为所有相关网页针对该关键词的相关度早已算好，所以只需按照现成的相关

        度数值排序，相关度越高，排名越靠前。

        最后，由检索器将搜索结果的链接地址和页面内容摘要等内容组织起来，返回给用户。

        第  5  页

        -----------------------  Page  14-----------------------

        搜索引擎优化魔法书  SEO  Magic  Book    浩维互动免费电子书  timev

        第三节  搜索引擎的分类

        按照不同的技术特点，可以把搜索引擎分为网页级搜索、垂直搜索、元搜索引擎、目录

        搜索和集成搜索等五类。

        一、网页级搜索

        网页级搜索引擎是名副其实的搜索引擎，国外具代表性的有Google、Yahoo、MSN  Live

        Search、Ask，国内著名的有百度、搜狗等。它们都是通过从互联网上提取的各个网站的信

        息（以网页文字为主）而建立的数据库，检索与用户查询条件匹配的相关记录，然后按一定

        的排列顺序将结果返回给用户。网页级搜索引擎也是目前常规意义上的搜索引擎。

        二、垂直搜索

        垂直搜索是针对某一个行业的专业搜索引擎，是搜索引擎的细分和延伸。它将网页库中

        某类专门的信息进行一次整合，定向分字段抽取出需要的数据进行处理，然后再以某种形式

        返回给用户。

        垂直搜索引擎与普通网页搜索引擎的最大区别是对网页信息进行了结构化抽取，也就是

        将网页的非结构化数据抽取成特定的结构化信息数据，然后将这些数据存储到数据库，进行

        进一步的加工处理，如：去重、分类等，最后分词、索引，再以搜索的方式满足用户的需求。

        可以这样说，网页搜索是以网页为最小单位，基于视觉的网页块分析是以网页块为最小单位，

        而垂直搜索是以结构化数据为最小单位。

        各大搜索引擎都有自身的垂直搜索功能，比如  MP3  搜索、图片搜索、新闻搜索、Blog

        搜索等。独立的垂直搜索网站也受到有相关兴趣的用户的青睐，比如旅游搜索引擎、商业搜

        索引擎、比价搜索引擎等。

        三、元搜索引擎

        元搜索引擎在接受用户查询请求时，同时在其它多个引擎上进行搜索，并将结果返回给

        用户。元搜索引擎并不直接抓取网页，而是抓取多个搜索引擎的索引数据库，并根据自己的

        算法对抓取结果重新筛选排序。