0

  搜索引擎有很多的算法,很多算法对于站长来说非常的有用,其中链接分析算法就有好几种,包括公开的链接分析算法就有Hits算法、HillTop算法、SALSA算法、PageRank算法等等,今天主要和大家一起交流下hits算法。

  HITS 算法是由康奈尔大学( Cornell University ) 的Jon Kleinberg 博士于1997 年首先提出的,为IBM 公司阿尔马登研究中心( IBM Almaden Research Center) 的名为“CLEVER”的研究项目中的一部分。作为几乎是与PageRank同一时期被提出的算法,HITS同样以更精确的搜索为目的,并到今天仍然是一个优秀的算法。

  HITS算法的全称是Hyperlink-Induced Topic Search。在HITS算法中,每个页面被赋予两个属性:hub属性和authority属性。同时,网页被分为两种:hub页面和authority页面。hub,中心的意思,所以hub页面指那些包含了很多指向authority页面的链接的网页,比如国内的一些门户网站;authority页面则指那些包含有实质性内容的网页。HITS算法的目的是:当用户查询时,返回给用户高质量的authority页面。

hits算法

  很多算法都是建立在一些假设之上的,HITS算法也不例外。HITS算法基于下面两个假设

  一个高质量的authority页面会被很多高质量的hub页面所指向。

  一个高质量的hub页面会指向很多高质量的authority页面。

  什么叫“高质量”,这由每个页面的hub值和authority值确定。其确定方法为:

  页面hub值等于所有它指向的页面的authority值之和。

  页面authority值等于所有指向它的页面的hub值之和。

  一、什么是Authority页面(权威页面)

  简单来说Authority页面(权威页面)是指在某一个领域范围内或者某一个相关主题范围内的高质量网页。比如b2b领域:阿里巴巴,慧聪就是很好的authority页面。

  二、什么是Hub页面(枢纽页面)

  而Hub页面(枢纽页面)通常就是它页面本身包含了很多高质量的Authority页面的链接,比如hao123网址导航首页就是一个非常好的Hub页面(枢纽页面)。

  HITS算法的缺点

  计算效率低

  这里说的“效率低”是针对其实时计算的特点而提出的。HITS算法是在用户提出搜索请求之后才开始运行的,然而计算出结果又需要多次迭代计算,所以就这点上来说HITS算法效率仍然较低。

  主题漂移

  在算法原理部分我们介绍了HITS算法是如何生成初始集合Gσ。从根集合Rσ我们通过链接添加网页的方法进行扩展,但这也很可能添加进与搜索主题无关的网页。若是这部分网页中又恰恰有着一些高质量的authority页面,则很有可能返回给用户,降低用户的搜索体验。

  作弊网页

  试想我们弄一个页面指向很多高质量的authority页面,那么这个页面就成为了一个高质量的hub页面。然后再弄个链接指向自己的搓网页,按照HITS算法,将大大提升自己的搓网页的authority值。

  稳定性差

  对于一个网页集合,若是删除其中的某条链接,就有可能造成一些网页的hub值和authority值发生巨大变化。

  懂得了hits算法的原理以及优缺点,可以很好的利用它来提升自己网站的排名,尤其是针对排名有一定基础的网站,用了hits算法后,可以让排名有一个质的飞跃。

更多>>评论

发表