第28章
由于同一个词,对于不同的人,词意可能是不同的,因此可以根据每个用户的习惯形成
自己的子词意库,可使用子词意库对文本进行二次分析,产生个性化结果。
系统的学习分为两种方式:
知识学习 系统自动在互联网上进行,无特定目的地吸收网上各种信息,并对收集到的
信息进行分析后作为知识保留,整个过程无需人工干预,可一天24 小时不间断地进行。
经验学习 每一次用户的具体使用,其结果也将作为经验保留下来,并对知识学习的结
果进行修正。
分词技术不追求 100%的准确,而讲究实用、快速,不依赖于庞大的词汇库或知识库,
因此可以做到不针对特定领域,可解决人名、地名、新出现的词汇等的分词,这些问题是传
统分词方法难以解决的,尤其是新词汇的分词,几乎是一个世界性的难题。
由于整个核心算法并非基于字、词典及语法,而是从模仿人类对语言文字的理解入手,
比如一个儿童并不懂得查字典和语法,但能够听懂别人说的话,因此对核心只要稍作修改便
能够用于英语及其它文字语言,就好象一个婴儿,你把他放到哪个国家,他就能学会当地的
语言。
二、文本分析应用
1、相关性搜索
相关性搜索是根据关键词的词意,与文章提取的重点要素进行比对,以此生成搜索结果,
这将是真正基于内容分析的搜索结果,而并非仅仅是简单的全文检索。
比如在一篇计算机相关的文章中,可能计算机这个词出现得很少、甚至根本没有,而大
量出现的可能是软件、硬件、程序、内存等词汇,也有可能在文章中不叫“计算机”而叫“电
脑”,当使用“计算机”这个词汇进行检索时,系统可分析出从文章中提取的重点要素与“计
算机”这个词是密切相关的,因此也会将其放入检索结果。
另外可以避免将错误结果放入,比如用“苹果”搜索,却把有关“苹果色素”的文章放
在了搜索结果中,而“苹果”和“苹果色素”完全是两回事。
2、个性化搜索
根据用户爱好和习惯,自动搜索其所需要的内容。通过某种技术,可以从用户所浏览页
面中分析出用户的爱好和习惯,进而在用户进入网站时自动将他最喜欢的内容呈现在他的眼
前,而且这种分析也是持续性的,可以即时掌握用户习惯和爱好的变化。
第 55 页
----------------------- Page 64-----------------------
搜索引擎优化魔法书 SEO Magic Book 浩维互动免费电子书 timev
个性化搜索最大的问题是用户嫌麻烦,不愿意用。而且习惯和爱好是发展变化的,这种
变化一般是潜移默化的,用户自己也难以查觉而去修改所设置的关键词,即使查觉,也往往
会忘记和懒得去修改。
3、其他应用
A. 自动摘要 由于使用了词意的理解,使得摘要的准确性大大提高,而且因为核心算
法并非针对某个特定领域,所以应用的范围也是全领域的。
B. 自动分类 比如输入一个产品,电脑系统能够自动将其归到一个产品类录下面。这
对搜索引擎、电子商务、供求信息等网站也是非常有用的,然而这也是一个世界性的难题。
目前一般都是采用人工来进行分类,比如搜狐就曾在网上发动大量的志愿者对其搜索引擎进
行分类整理,但可想而知这样做在成本、效率、准确度等方面都难以满足要求。
C. 应用核心技术开发出其它特定功能的软件。
第 56 页
----------------------- Page 65-----------------------
搜索引擎优化魔法书 SEO Magic Book 浩维互动免费电子书 timev
第五章 了解网站的搜索引擎表现
第一节 基础查询
一、域名信息查询
域名归属:查看域名所有人、注册时间、到期时间等。
英文域名信息查询:whois
中文域名信息查询:cnnic.cn
一般域名注册商网站也提供此类查询功能。
二、域名历史查询
有些没在使用也没有被注册的域名,可能是因为作弊被 Google 或者百度处罚过的。在
注册新域名的时候,有必要留个心眼,以免捡了别人的垃圾。
http://domain-history.domaintools
三、主机连接速度和 IP 地址查询
开始-运行-输入“cmd”进入命令行窗口。
输入 ping timev,返回以下内容:
Ping timev [61.141.5.50] with 32 bytes of Date:
Reply from 61.141.5.50: bytes=32 time=282ms TTL=54
其中 61.141.5.50 就是网站的IP 地址,time 282ms 这个数值越小表明速度越快。
需要注意的是,这个数值仅仅反应相对的速度,比如今天是不是比昨天慢了好多。收到
查询者和网站主机所处区域和运营商的限制,会有很大的差异。比如你是电信用户,查询网
通的主机可能显示速度比较慢,但是网通用户查询起来就很正常。
可以让不同地区的朋友,特别是网站主要目标用户群体所在地区的朋友帮助你做一些测
试,如果普遍反应很慢,就要考虑换主机服务商了。
四、同IP 网站查询
用来查询在和你的网站同一个 IP 地址上,还有哪些网站。这往往对于虚拟主机比较有
用,你可以看看和你在同一个服务器上有哪些邻居,也可以看看这些邻居是不是都是些安分
守己网站,如果发现其中有明显搜索引擎作弊的网站,就要引起注意了,因为你的网站有可
能收到牵连。
查询地址:114best
第 57 页
----------------------- Page 66-----------------------
搜索引擎优化魔法书 SEO Magic Book 浩维互动免费电子书 timev
第二节 收录查询
一、是否被收录
直接在搜索引擎搜索域名。比如在百度搜索 timev
浩维互动
首页 关于我们 服务内容 客户案例 知识库 浩维博客 联系方式 互联
网战略规划 网站诊断和网站策划 搜索引擎营销和优化 互联网开源计
划 行业解决方案 超越客户期望 互联网是增强企业竞争优势的资源,互
联网应用应该具有整体性和长期性,并应该融入...
timev/ 6K 2007-3-6 - 百度快照
这就说明网站已经被收录了。
如果显示下面的结果,说明网站还没有被收录。