杭州(zhōu)SEO专用徐少辉要说的是:网页查重(chóng)算法,也就是(shì)搜索引擎是怎么(me)检查两(liǎng)个网页的相似性的?这应(yīng)该是大家应该比较关心的(de)问题(tí)吧,因为这有(yǒu)助于让你的“伪原创”更(gèng)像一个“原创”
首先(xiān)我跟大家讲有名(míng)的(de)I—MATCH算法。
我们在(zài)比较两件事(shì)物的相似(sì)性时(shí),往往都(dōu)会拿能均衡的反应这事(shì)物本(běn)质的东西来比较,就像比(bǐ)赛时,要(yào)去除一个最(zuì)高分和最低分,然后再变(biàn)算(suàn)总分(fèn)一样(yàng)~~
I—MATCH算法基于的依据是,在文(wén)挡(dǎng)中(zhōng),特别高频的词和(hé)特别低频的词无法反应这一个文挡的真实内容,所以在比较之(zhī)前,先将(jiāng)文挡中高频词和(hé)低频词去掉(注意:这里的高频和低频指的是(shì)文档频率,并非关键词(cí)在你网页中(zhōng)的(de)密度!)
我们来看一个例子:
这里有两段网页文字:
1.中国足球队在(zài)米卢的率领下首次获得世界(jiè)杯决赛阶段的比赛资格,新浪体育(yù)播报(bào) 。
2.米卢率(lǜ)领中国足(zú)球(qiú)队员(yuán)首(shǒu)次杀入(rù)世(shì)界(jiè)杯决赛阶(jiē)段(duàn),搜(sōu)狐体(tǐ)育播报。(嘿(hēi)嘿,看到这(zhè)两句很(hěn)熟吧?)
文档(一)中去掉(diào)高频:中国,在,的,获得,比赛(sài),资格,新浪,体育,播(bō)报
去掉低频(pín):米卢
则剩下中(zhōng)频词有:足球队,率领,首次,世界杯(bēi),决赛,阶段
文档(二)中去掉高频:中国,搜狐,体育,播报
去掉低频:米卢,杀入
则剩下中频词有:率领(lǐng),足(zú)球队,首次,世界杯,决赛(sài) ,阶(jiē)段
看到了吧?剩下(xià)的,两者(zhě)是一模一样 这就是相似性的存在
呵呵,其实这个(gè)例子很早(zǎo)就有过的。。
综(zōng)上所述(shù):搜索引擎要检(jiǎn)测相似性(xìng),主要就是要分词和词频(pín)的比较!!
|