超链分析【百度百科】

  超链分析就是通过分析链接网站的多少来评价被链接的网站质量,这保证了用户在百度搜索时,越受用户欢迎的内容排名越靠前。百度总裁李彦宏就是超链分析专利的唯一持有人,目前该技术已为世界各大搜索引擎普遍采用。
 
  1996年(丙子年)4月,Excite首期200万股股票上市,李彦宏也在此时想到了如何解决搜索引擎作弊问题。"我想到了我在北大所学的科技论文索引,科学论文通过索引被引用次数的多寡来确定一篇论文的好坏,超链就是对页面的引用,作弊网页没价值,不可能被很多网站主动超链。""超链上的文字就是对所链接网页的描述,通过这个描述可以计算出超链和页面之间的相关度"总之,"超链是别人评价你,超链上的描述是别人怎样评价你。"
 
  想到这,李彦宏很兴奋,他找到老板,对他说:"我们应该做搜索引擎。"老板听了很高兴说:"很好。"但老板并没真正认识到李彦宏这个发明的重要性,"或者在他的位置上,觉得没有必要做这个"。其时,李彦宏所在的公司已被道琼斯收购,大家都在忙着做华尔街日报网站,李彦宏是《华尔街日报》网络版实时金融信息系统设计者。在道琼斯看来,"这个公司最值钱是编辑和记者,公司虽然给软件和技术工程师比较高的工资,但软件和技术人员并不重要。"
 
  老板那边没动静,李彦宏这边很着急。"拖下去,别人也可能想到。"李彦宏买了本怎样申请专利的书,写了两个月,将想法写成了专利,并递交了专利申请。
 
  申请递上去之后,李彦宏觉得还是应该和老板说一声。老板一听急了。"这是你的职务发明,应该由公司来申请这个专利。"1997年2月,道琼斯申请了"一种超文本的相关性排序方法和系统"专利。"它的本质就是超链分析。"
 
  道琼斯不可能提供足够多的资源让李彦宏做搜索引擎,李彦宏用一台服务器做索引互联网上的超链,然后用ranklink. com跑一个DEMO演示。"当时有杂志记者采访我,发表了第一篇讲超链分析文章。"Rankdex在公司立了项,还给李彦宏配一个销售,卖超链分析技术。
 
  1997年夏,李彦宏工资已经涨到了年薪8万美元,但他总是觉得没意思。一次学术会议上,李彦宏遇到了Infoseek CTO(首席技术官) 威廉张。李彦宏拉威廉张看ranklink. com。微软、雅虎的人也在场。李彦宏输入chinatimes,排在第一位的就是中国时报的网站,再搜IBM,IBM官方网站排在第一。"当时任何一个流行的搜索引擎都做不到。"
 
  威廉张立即给李彦宏开了更高的工资,邀请他加入Infoseek,李彦宏欣然接受,离开华尔街来到硅谷,出任Infoseek主任工程师。
 
  这其实就是现实生活中类似于链接关系的应用。要判断哪个页面最具权威性,不能光看页面自己怎么说,还要看其他页面怎么评价。
 
  李彦宏1997年就提交了一份名为"超链文件检索系统和方法"的专利申请,这比GOOGLE创始人发明PR要早得多,不得不说这是非常具有前瞻性的研究工作。在这份专利中,李彦宏提出了与传统信息检索系统不同的基于链接的排名方法。
 
  这个系统除了索引页面之外,还建立一个链接词库,记录链接锚文字的一些相关信息,如锚文字中包含哪些关键词,发出链接的页面索引,包含特定锚文字的链接总数,包含特定关键词的链接都指向哪些页面。词库不仅包含关键词原型,也包含同一个词干的其他衍生关键词。
 
  根据这些链接数据,尤其是锚文字,计算出基于链接的文件相关性。在用户搜索时,将得到的基于链接的相关性与基于关键词匹配的传统相关性综合使用,得到更准确的排名。
 
  在今天看来,这种基于链接的相关性计算是搜索引擎的常态,每个SEO人员都知道。但是在十三四年前,这无疑是非常创新的概念。当然现在的搜索引擎算法对链接的考虑,已经不仅仅是锚文字,实际上要复杂的多。
 
  这份专利所有人是李彦宏当时所在的公司,发明人是李彦宏本人。
 
  一个与根据超链指向的查询索引文档相关,用于检索文档的搜索引擎。它的索引器遍历超文本数据库并寻找包括超链指向的文档地址与每个超链的锚文本在内的超文本信息。超文本信息是贮存在一个倒排索引文件里,这个倒排索引文件亦可用于计算对于各超链指向的特定文档链接向量。输入查询时候,搜索引擎找到锚文本里含有查询词的全部文档的向量。此外计算了查询向量,然后算出查询向量跟每个文档链接向量的点积。特定文档相关点积的加总确定每一个文档的相关性排名。

相关新闻

联系我们

188-0666-3235

在线咨询:点击这里给我发消息

邮件:piok@haoshangbang.cn

工作时间:周一至周五,10:00 - 22:00,节假日休息

QR code