[   ] 
首页 | 公司介绍 | 新闻动态 | 网站优化 | 网站制作 | 留言板 | 付款方式 | 诚聘英才 | 合作代理 | 论坛 | 博客 | 免费空间
  友情链接
  • 中国电信集团公司
  • 中国IT门户赛迪网
  • CNET中国媒体集团
  • 中国起步软件集团
  • 中国互动银河网
  • 土豆网-视频播客
  • Global Internet
  • 雅虎英文网站
  •  
     
    SEO查重算法 打造终极“伪原创”
    我现在要讲的是:网页查重算法,也就是搜索引擎是怎么检查两个网页的相似性的?这应该是大家应该比较关心的问题吧,因为这有助于让你的“伪原创”更像一个“原创”

      首先我跟大家讲有名的I—MATCH算法。

      我们在比较两件事物的相似性时,往往都会拿能均衡的反应这事物本质的东西来比较,就像比赛时,要去除一个最高分和最低分,然后再变算总分一样~~

      I—MATCH算法基于的依据是,在文挡中,特别高频的词和特别低频的词无法反应这一个文挡的真实内容,所以在比较之前,先将文挡中高频词和低频词去掉(注意:这里的高频和低频指的是文档频率,并非关键词在你网页中的密度!)

      我们来看一个例子:

      这里有两段网页文字:

      1.中国足球队在米卢的率领下首次获得世界杯决赛阶段的比赛资格,新浪体育播报 。

      2.米卢率领中国足球队员首次杀入世界杯决赛阶段,搜狐体育播报。(嘿嘿,看到这两句很熟吧?)

      文档(一)中去掉高频:中国,在,的,获得,比赛,资格,新浪,体育,播报

      去掉低频:米卢

      则剩下中频词有:足球队,率领,首次,世界杯,决赛,阶段

      文档(二)中去掉高频:中国,搜狐,体育,播报

      去掉低频:米卢,杀入

      则剩下中频词有:率领,足球队,首次,世界杯,决赛 ,阶段

      看到了吧?剩下的,两者是一模一样 这就是相似性的存在

      呵呵,其实这个例子很早就有过的。。

      综上所述:搜索引擎要检测相似性,主要就是要分词和词频的比较!!

      不知道大家是否都清楚了?呵呵,下次再讲一个经典算法:Shingle算法。

      就到这里吧。祝大家的“伪原创”越来越好! SEO学习还任重道远啊!一起努力

     
    公司地址:北京市朝阳区白家楼朝阳北路52号院3号楼3单元504室
    电话:010-65408166 E-Mail:jinghu-81699@163.com
    Copyright©2007-2008 京客网 All Rights Reserved.


    网站优化   google优化  google优化技术  google排名  北京google排名  google推广    网站建设公司  网站建设