第27章

        四、分词中的难题

        有了成熟的分词算法，是否就能容易地解决中文分词问题呢？事实远非如此。中文是一

        种十分复杂的语言，让计算机理解中文语言更是困难。在中文分词过程中，有两大难题一直

        没有完全突破。

        1、歧义识别

        歧义是指同样的一句话，可能有两种或者更多的切分方法。例如：表面的，因为“表面”

        和“面的”都是词，那么这个短语就可以分成“表面”“的”和“表”“面的”。这种称为交

        叉歧义。像这种交叉歧义十分常见，前面举的“和服”的例子，其实就是因为交叉歧义引起

        的错误。“化妆和服装”可以分成“化妆”“和”“服装”或者“化妆”“和服”“装”。由于没

        有人的知识去理解，计算机很难知道到底哪个方案正确。

        交叉歧义相对组合歧义来说是还算比较容易处理，组合歧义就必需根据整个句子来判断

        了。例如，在句子“这个门把手坏了”中，“把手”是个词，但在句子“请把手拿开”中，

        “把手”就不是一个词；在句子“将军任命了一名中将”中，“中将”是个词，但在句子“产

        量三年中将增长两倍”中，“中将”就不再是词。这些词计算机又如何去识别？

        如果交叉歧义和组合歧义计算机都能解决的话，在歧义中还有一个难题，是真歧义。真

        歧义意思是给出一句话，由人去判断也不知道哪个应该是词，哪个应该不是词。例如：“乒

        乓球拍卖完了”，可以切分成“乒乓”“球拍”“卖”“完”“了”、也可切分成“乒乓球”“拍

        卖”“完”“了”，如果没有上下文其他的句子，恐怕谁也不知道“拍卖”在这里算不算一个

        词。

        2、新词识别

        新词，专业术语称为未登录词，也就是那些在字典中都没有收录过，但又确实能称为词

        的那些词。最典型的是人名，人可以很容易理解句子“王军虎去广州了”中，“王军虎”是

        个词，因为是一个人的名字，但要是让计算机去识别就困难了。如果把“王军虎”做为一个

        词收录到字典中去，全世界有那么多名字，而且每时每刻都有新增的人名，收录这些人名本

        身就是一项巨大的工程。即使这项工作可以完成，还是会存在问题，例如：在句子“王军虎

        头虎脑的”中，“王军虎”还能不能算词？

        新词中除了人名以外，还有机构名、地名、产品名、商标名、简称、省略语等都是很难

        处理的问题，而且这些又正好是人们经常使用的词，因此对于搜索引擎来说，分词系统中的

        新词识别十分重要。目前新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。

        五、中文分词的应用

        中文分词主要应用于信息检索、汉字的智能输入、中外文对译、中文校对、自动摘要、

        第  53  页

        -----------------------  Page  62-----------------------

        搜索引擎优化魔法书  SEO  Magic  Book    浩维互动免费电子书  timev

        自动分类等很多方面。下面就以信息检索为例来说明中文分词的应用。

        通过近几年的发展，互联网已经离我们不再遥远。互联网上的信息也在急剧膨胀，在这

        海量的信息中，各类信息混杂在一起，要想充分利用这些信息资源就要对它们进行整理，如

        果由人来做这项工作，已经是不可能的，而如果面对中文信息不采用分词技术，那么整理的

        结果就过于粗糙，而导致资源的不可用，例如：“制造业和服务业是两个不同的行业”和“我

        们出口日本的和服比去年有所增长”中都有“和服”，而被当作同一类来处理，结果是检索

        “和服”的相关信息，会将他们都检索到，在信息量少的情况下，似乎还能够忍受，如果是

        海量信息，这样的结果就会令人讨厌了。通过引入分词技术，就可以使机器对海量信息的整

        理更准确更合理，在“制造业和服务业是两个不同的行业”中“和服”不会被当做一个词来

        处理，那么检索“和服”当然不会将它检索到，使得检索结果更准确，效率也会大幅度的提

        高。

        所以中文分词的应用会改善我们的生活，使人们真正体会到科技为我所用。

        六、中文搜索引擎技术

        信息的飞速增长，使搜索引擎成为人们查找信息的首选工具，Google、百度、中国搜索

        等大型搜索引擎一直是人们讨论的话题。随着搜索市场价值的不断增加，越来越多的公司开

        发出自己的搜索引擎，阿里巴巴的商机搜索、8848                                        的购物搜索等也陆续面世，自然，搜索

        引擎技术也成为技术人员关注的热点。

        搜索引擎技术的研究，国外比中国要早近十年，从最早的  Archie，到后来的Excite，以

        及  altvista、overture、Google  等搜索引擎面世，搜索引擎发展至今，已经有十几年的历史，

        而国内开始研究搜索引擎是在上世纪末本世纪初。在许多领域，都是国外的产品和技术一统

        天下，特别是当某种技术在国外研究多年而国内才开始的情况下。例如操作系统、字处理软

        件、浏览器等等，但搜索引擎却是个例外。虽然在国外搜索引擎技术早就开始研究，但在国

        内  还  是  陆  续  涌  现  出  优  秀  的  搜  索  引  擎  ，  像  百  度  （http://baidu    ）、  中  搜

        （http://zhongsou  ）等。目前在中文搜索引擎领域，国内的搜索引擎已经和国外的

        搜索引擎效果上相差不远。之所以能形成这样的局面，有一个重要的原因就在于中文和英文

        两种语言自身的书写方式不同，这其中对于计算机涉及的技术就是中文分词。

        目前在自然语言处理技术中，中文处理技术比西文处理技术要落后很大一段距离，许多

        西文的处理方法中文不能直接采用，就是因为中文必需有分词这道工序。中文分词是其他中

        文信息处理的基础，搜索引擎只是中文分词的一个应用。其他的比如机器翻译（MT  ）、语音

        合成、自动分类、自动摘要、自动校对等等，都需要用到分词。因为中文需要分词，可能会

        影响一些研究，但同时也为一些企业带来机会，因为国外的计算机处理技术要想进入中国市

        场，首先也是要解决中文分词问题。在中文研究方面，相比外国人来说，中国人有十分明显

        的优势。

        分词准确性对搜索引擎来说十分重要，但如果分词速度太慢，即使准确性再高，对于搜

        索引擎来说也是不可用的，因为搜索引擎需要处理数以亿计的网页，如果分词耗用的时间过

        长，会严重影响搜索引擎内容更新的速度。因此对于搜索引擎来说，分词的准确性和速度，

        二者都需要达到很高的要求。目前研究中文分词的大多是科研院校，清华、北大、中科院、

        北京语言学院、东北大学、IBM                          研究院、微软中国研究院等都有自己的研究队伍，而真正

        专业研究中文分词的商业公司除了海量科技以外，几乎没有了。科研院校研究的技术，大部

        分不能很快产品化，而一个专业公司的力量毕竟有限，看来中文分词技术要想更好的服务于

        第  54  页

        -----------------------  Page  63-----------------------

        搜索引擎优化魔法书  SEO  Magic  Book    浩维互动免费电子书  timev

        更多的产品，还有很长一段路。

        第四节  基于词意的文本分析

        基于词意的文本分析是指运用词意对文本内容进行分析，得到文本内容的重点要素。文

        本分析是一种词意的自学习技术，是与整个技术相结合的独特分词技术。

        一、文本分析技术特点

        由于词意库是自学习形成，因此不需要预先设置庞大的词典库，而且最重要的是,学习

        是持续性的，系统对词意的理解会随着外界的变化而变化，并能不断增添新创词汇。