网站首页 | SEO基础知识 | SEO文章转载
长沙SEO_网站优化_培训及顾问指导服务 - 风吟SEO

您的位置:长沙SEO > SEO文章转载 >

搜索引擎聚类分析

搜索引擎形式从最早的目录式搜索到基于 Robot 搜索引擎,再到现在的聚类搜索引擎,其对象不仅仅是对资源进行搜索,也开始关注用户体验,如何使用户能更为便捷的找到自己所需内容.搜索引擎聚类发展已有十余年,通过对国内外相对比较成熟的聚类搜索引擎作为研究对象,从划分类型、基本功能、聚类算法角度分析.
 
1.划分类型分析
 
根据分类标准不同,搜索引擎聚类划分的种类也不同.根据提供的服务划分成社区型(比如贝壳网)和搜索型(如第易搜).按照信息的来源即是否拥有独立的数据库,聚类搜索引擎能划分为寄生型 (Vivisimo) 和原生型 (如CNKI 搜索).按照搜索引擎来源的数目,聚类搜索引擎可以划分为单一型来源搜索引擎(如 TouchGraph)和多来源搜索引擎,即元搜索引擎(如 Bbmao).
 
2.基本功能分析
 
在对国内外具有代表性的搜索引擎聚类分析后,发现其搜索对象不仅仅为网页,更延伸到网页、新闻、目录、摘要、博客,可应用于商业、政府工作、新闻搜集等多种多样.另外,在提供个性化搜索的同时,用户还可根据自己的喜好,在游戏、旅游、博客等大类下选择的信息源,在右侧会自动呈现图片、新闻、购物等搜索结果.
 
3.聚类算法角度分析
 
目前的网页聚类算法根据其针对的方向分为 3 种,即基于链接分析、基于网页内容、基于用户搜索日志的聚类算法.
 
基于链接分析的聚类和传统的搜索引擎搜索有一定相似之处,对任一网页,必有本网页指向其他网页的链接和其他网页指向本网页的链接.若这些其他网页都包含有同一个网页的链接,则被认为同音关系,具有相似性,进而依次聚类.基于网页内容的聚类即是对网页的内容直接聚类,传统的聚类算法是对网页内容去标点、化复数形式为单数、去掉前后缀.然而这些方法是针对单个文字的聚类,并没有考虑词间含义,也不能真实的反映网页内容.于是出现了 STC 算法即后缀树算法,通过将网页进行处理,得到词组,再依赖于后缀树,辨别拥有相同词义的词组,将他们作为基本类,合并形成高层次的类,进行高效的聚类.随着搜索引擎的发展,研发者开始考虑到对用户行为分析,构建用户模型,出现了基于用户搜索日志的聚类算法.通过用户对搜索结果网页进行聚类.
 
上述三种聚类算法各有优缺点,基于用户搜索日志的算法注重用户体验,基于网络内容的算法注重搜索对象,而基于链接分析的聚类注重相似网页之间的链接.在以后聚类搜索引擎发展中,这三种方法将会结合使用.
 

最近更新

最后更新时间:2014-05-04

seo

文章作者:风吟

联系QQ:498501258

11年开始接触英文SEO行业,负责欧美游戏金币网站推广。

12年涉足中文搜索引擎营销及网站建设并积累大量实战经验,成功帮助多家公司提升在线销售业绩和网络品牌知名度。

填写您的邮件地址,订阅我们的精彩内容: