Google是通過哪些方面來判定原創(chuàng)文章與偽原創(chuàng)
Google對于偽原創(chuàng)的判別要比百度來的準(zhǔn)的多,現(xiàn)在我們就來看下Google是通過哪幾方面判定原創(chuàng)與偽原創(chuàng)的。
1.內(nèi)容相似度
內(nèi)容相似度是搜索引擎去重用的最多的算法,用的比較多的一種是TF/IDF算法,這個(gè)也是計(jì)算相關(guān)性的算法,TF-IDF的主要意思是說:如果某個(gè)詞或短語在一篇文章中出現(xiàn)的頻率高,并且在其他文章中很少出現(xiàn),則認(rèn)為此詞或者短語具有很好的類別區(qū)分能力,適合用來分類。
TF詞頻(Term Frequency)指的是某一個(gè)給定的詞語在該文件中出現(xiàn)的次數(shù)。
IDF反文檔頻率(Inverse Document Frequency)指的是:如果包含詞條的文檔越少,IDF越大,則說明詞條具有很好的類別區(qū)分能力。
當(dāng)一篇文章根據(jù)TF/IDF進(jìn)行計(jì)算后,形成了一個(gè)多維的向量,這個(gè)向量就是這篇文章的內(nèi)容特征向量,當(dāng)兩篇文章的特征向量趨于一致的時(shí)候,我們認(rèn)為這兩篇文章的內(nèi)容接近,如果一致則說明是重復(fù)的。
關(guān)于TF/IDF與向量算法的詳細(xì)請參看Google黑板報(bào)的數(shù)學(xué)之美12-余弦定理與新聞分類
2.數(shù)據(jù)指紋
當(dāng)搜索引擎通過相似度把文章收集起來后,要判別一下是否是重復(fù)文章,經(jīng)常用的就是數(shù)據(jù)指紋,數(shù)據(jù)指紋有很多種算法,常見的比如講文章的標(biāo)點(diǎn)符號提出,進(jìn)行對比,你很難想象有兩篇不同的文章,標(biāo)點(diǎn)符合是一致的。還有對向量進(jìn)行對比,也就是TF詞頻(關(guān)鍵詞密度)等等來判斷。
這時(shí)候你可以想象出,現(xiàn)在很多偽原創(chuàng)工具,只是把關(guān)鍵詞進(jìn)行了替換,你想關(guān)鍵詞替換后,標(biāo)點(diǎn)符號指紋是不變的,甚至連TF詞頻都不變。還有對文章進(jìn)行段落的重拍,這個(gè)的確是打亂了標(biāo)點(diǎn)符號,但是向量和詞頻問題依然存在。那么這樣的偽原創(chuàng)工具有沒有價(jià)值你就可想而知了。(可能對于百度還是有作用的)
3.代碼噪音
前面說的這些,都是基于一個(gè)條件的,就是搜索引擎要知道文章是什么,因?yàn)槊總€(gè)網(wǎng)站的模板都不同,代碼也不同,各種信息混合在一起,如果能找到正文就是搜索引擎第一要處理的。
一般Google都會通過對代碼的布局和噪音比例進(jìn)行區(qū)分,哪些是導(dǎo)航,哪些是正文,并可以對一些典型的代碼進(jìn)行忽略。那么我們在做模板的時(shí)候,就要注意了。這里有個(gè)糾結(jié)點(diǎn),就是整頁面降噪,方便搜索引擎進(jìn)行正文的確認(rèn),但是正文區(qū)要適當(dāng)?shù)募釉?,增加搜索引擎識別重復(fù)性的難度。
[Google是通過哪些方面來判定原創(chuàng)文章與偽原創(chuàng)]
本文鏈接:http://njylbyy.cn/jzjswz/427.htmltag:
- 商丘網(wǎng)站推廣方法有哪些?深度解析提升網(wǎng)站曝光度的多種有效途徑
- 商丘網(wǎng)站優(yōu)化做的較多的是啥?究竟較多的是哪些關(guān)鍵工作?
- 商丘百度愛采購能不能做?百度愛采購平臺適合哪些商家
- 商丘seo優(yōu)化方法有哪些?讓我們一起深入探索
- 商丘網(wǎng)絡(luò)營銷的特點(diǎn)有哪些?
- 商丘網(wǎng)絡(luò)推廣渠道有哪些?全面解析適合你的推廣平臺!
- 商丘企業(yè)網(wǎng)站建設(shè)的前期工作有哪些?
- 中小企業(yè)網(wǎng)站建設(shè)有哪些難點(diǎn)
- 商丘通過開發(fā)網(wǎng)站,可以實(shí)現(xiàn)以下目標(biāo):
- 商丘設(shè)計(jì)制作網(wǎng)站公司淺談建設(shè)英文網(wǎng)站需注意哪些細(xì)節(jié)?
- 商丘網(wǎng)站建設(shè)費(fèi)用,主要有哪些呀?
- 怎么快速更新網(wǎng)站百度快照?更新工具都有哪些?