乐读窝

搜索引擎优化魔法书

乐读窝 > 科幻小说 > 搜索引擎优化魔法书

第25章

书籍名:《搜索引擎优化魔法书》    作者:姚志国


                                    

        第48  页

        -----------------------  Page  57-----------------------

        搜索引擎优化魔法书  SEO  Magic  Book    浩维互动免费电子书  timev

        3、索引数据库中搜索排序

        当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所

        有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关

        度数值排序,相关度越高,排名越靠前。最后,由页面生成系统将搜索结果的链接地址和页

        面内容摘要等内容组织起来返回给用户。

        三、搜索效果

        搜索引擎  Spider  一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、

        几周或几月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反

        映出网页文字的更新情况,增加新的网页信息,去除死链接,并根据网页文字和链接关系的

        变化重新排序。这样,网页的具体文字变化情况就会反映到用户查询的结果中。

        互联网虽然只有一个,但各搜索引擎的能力和偏好不同,所以抓取的网页各不相同,排

        序算法也各不相同。大型搜索引擎的数据库储存了互联网上几千万至几十亿的网页索引,数

        据量达到几千  G  甚至几万G。但即使最大的搜索引擎建立超过20  亿网页的索引数据库,也

        占不到互联网上普通网页的30%,不同搜索引擎之间的网页数据重叠率一般在70%以下。

        人们使用不同搜索引擎的重要原因,就是因为它们能分别搜索到不同的网页。而互联网上有

        更大量的网页,是搜索引擎无法抓取索引的,也是无法用搜索引擎搜索到的。

        使用超链分析的搜索引擎未能收录的网页有:Spider  未能正确处理的网页性质及文件类

        型(如Flash、script、JS,某些动态网页及Frame、数据库);没有主动登录搜索引擎而且没

        有指向链接的孤岛网页;Spider  访问时因为某些原因正好是死链接的网页;被认为是劣质网

        页而不抓;因为色情、反动、spam    等问题而不抓的非法网页;需要输入用户名、密码方可

        打开的网页;网站用robots  协议拒绝搜索引擎抓取的网页;搜索引擎还未来得及抓取的新网

        页;go-pher、newsgroups、Telnet、np、wais  等非http  信息的网页。

        任何地址中带“?”和“&”号(及其他类似符号)的网页都会被“蜘蛛”程序挡在门外。

        这些网页通常由  CGL、PHP、ASP    等程序产生,技术上较先进,但不适合搜索引擎的“蜘

        蛛”程序。虽然目前有的大型搜索引擎(如  Google)已具备检索动态网页的能力,但相当

        一部分引擎还是不支持它的。而且即使是能够索引动态网页的  Google,也在多个场合中明

        确表示不保证检索全部的动态网页。

        四、超链分析技术的应用

        超链分析技术已为世界各大搜索引擎普遍采用,在我国使用该项技术的搜索引擎有:

        百度(http://baidu  )搜索引擎使用了高性能的“网络蜘蛛”程序自动在互联网

        中搜索信息,可定制、高扩展性的调度算法使得搜索器能在极短的时间内收集到最大数量的

        互联网信息。百度在中文互联网拥有天然优势,支持搜索  1.3  亿个中文网页,是现在最大的

        中文搜索引擎。并且,百度每天都在增加几十万新网页,对重要中文网页实现每天更新。百

        度除了用超链分析排名外还开展竞价排名。具有网页快照,相关搜索、中文人名识别、简繁

        体中文自动转换、网页预览等功能,还可以进行专业的MP3  搜索、Flash  搜索、新闻搜索、

        图片搜索、信息快递搜索。百度总裁李彦宏就是超链分析专利的唯一持有人。

        引入人工智能的慧聪(http://huicong  )行业搜索引擎对于商务人士而言尤为有

        用。如果在Google  上输入“化工”,搜索出相关网页有  138  万个,里面包罗万象,有用的、

        第49  页

        -----------------------  Page  58-----------------------

        搜索引擎优化魔法书  SEO  Magic  Book    浩维互动免费电子书  timev

        无用的混杂在一起,如果用户想找的网站正好排名在上千、上万个以后,无疑面对的是一个

        茫茫网海,找到这个信息十分困难。而在慧聪行业搜索引擎,弹出的首先是一个分类页面,

        列有有机化工、石油化工、精细化工、印刷化工等43  个行业分类的条目,虽然只有  1  万多

        条查询结果,针对性却非常强,用户可以快速找到自己需要的信息,网站与有效用户的见面

        机会大大增强。模拟人类智慧,更好地使用技术来完成更具智慧的搜索,必然是下一代搜索

        引攀技术的发展趋势。

        五、存在的缺陷

        用户在搜索关于某些内容的有效信息时,最大的特点是各异性。利用超链分析技术,用

        户将接受一种根据某种标准进行网页排名的信息服务,从而演变成为各网站想尽办法追求网

        页排名的商业活动。

        海量的网页被收集回来,用姓名、电话、单位名称或网名都可以搜索到许多含有此关键

        词的信息,这些信息有不少侵权、侵犯隐私、泄露机密的信息,尤其是大量论坛的贴子被收

        录,不少贴子言论含有攻击的成分。所以如何及时处理掉这些链接又是搜索引擎急需解决的
        问题。

        第三节  中文分词

        一、什么是中文分词?

        英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的

        字连起来才能描述一个意思。例如,英文句子“I  am  a  student.”,用中文则为:“我是一个

        学生”。计算机可以很简单通过空格知道  student  是一个单词,但是不能很容易明白“学”、

        “生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,

        有些人也称为切词。我是一个学生,分词的结果是:“我”“是”“一个”“学生”。

        二、中文分词的意义和作用

        要想说清楚中文分词的意义和作用,就要提到智能计算技术。智能计算技术涉及的学科

        包括物理学、数学、计算机科学、电子机械、通讯、生理学、进化理论和心理学等等。简单

        的说,智能计算就是让机器“能看会想,能听会讲”。要想实现这样的一个目标,首先就要

        让机器理解人类的语言,只有机器理解了人类的语言文字,才使得人与机器的交流成为可能。

        再反观我们人类的语言中,“词是最小的能够独立活动的有意义的语言成分”,所以对于中文

        来讲,将词确定下来是理解自然语言的第一步,只有跨越了这一步,中文才能像英文那样过

        渡到短语划分、概念抽取以及主题分析,以至自然语言理解,最终达到智能计算的最高境界,

        实现人类的梦想。

        从现阶段的实际情况来看,英文已经跨越了分词这一步,也就是说在词的利用上已经先

        一步,并且已经展现了良好的应用前景,无论是信息检索还是主题分析的研究都要强于中文,

        究其根本原因就是中文要通过分词这道难关,只有攻破了这道难关,我们才有希望赶上并超

        过英文在信息领域的发展,所以中文分词对我们来说意义重大,可以说直接影响到使用中文

        的每一个人的方方面面。

        第  50  页

        -----------------------  Page  59-----------------------

        搜索引擎优化魔法书  SEO  Magic  Book    浩维互动免费电子书  timev

        中文分词到底对搜索引擎有多大影响?