新聞中心
3 網(wǎng)站優(yōu)化
3.1 抓取友好性
關(guān)于抓取的優(yōu)先級(jí),在此重點(diǎn)強(qiáng)調(diào):
√ 網(wǎng)站更新頻率:經(jīng)常更新高價(jià)值的站點(diǎn),優(yōu)先抓取;
√ 受歡迎程度:用戶體驗(yàn)好的站點(diǎn),優(yōu)先抓?。?/p>
√ 優(yōu)質(zhì)入口:優(yōu)質(zhì)站點(diǎn)內(nèi)鏈接,優(yōu)先抓??;
√ 歷史的抓取效果越好,越優(yōu)先抓??;
√ 服務(wù)器穩(wěn)定,優(yōu)先抓?。?/p>
√ 安全記錄優(yōu)質(zhì)的網(wǎng)站,優(yōu)先抓?。?/p>
順暢穩(wěn)定的抓取是網(wǎng)站獲得搜索用戶、搜索流量的重要前提,影響抓取的關(guān)鍵因素,站長(zhǎng)可以通過(guò)本章節(jié)了解。
3.1.1 URL規(guī)范
網(wǎng)站的URL如何設(shè)置,可參考2.3.1中的URL設(shè)置規(guī)范
3.1.1.1 參數(shù)
URL中的參數(shù)放置,需遵循兩個(gè)要點(diǎn):
√ 參數(shù)不能太復(fù)雜;
√ 不要用無(wú)效參數(shù),無(wú)效參數(shù)會(huì)導(dǎo)致頁(yè)面識(shí)別問(wèn)題,頁(yè)面內(nèi)容最終無(wú)法在搜索展示
另外,很多站長(zhǎng)利用參數(shù)(對(duì)搜索引擎和頁(yè)面內(nèi)容而言參數(shù)無(wú)效)統(tǒng)計(jì)站點(diǎn)訪問(wèn)行為,這里強(qiáng)調(diào)下,盡量不要出現(xiàn)這種形式資源,例如:
https://www.test.com/deal/w00tb7cyv.html?s=a67b0e875ae58a14e3fcc460422032d3
或者:
http://nmtp.test.com/;NTESnmtpSI=029FF574C4739E1D0A45C9C90D656226.hzayq-nmt07.server.163.org-8010#/app/others/details?editId=&articleId=578543&articleType=0&from=sight
3.1.2 鏈接發(fā)現(xiàn)
3.1.2.1 百度蜘蛛
很多站長(zhǎng)會(huì)咨詢?nèi)绾闻袛喟俣纫苿?dòng)蜘蛛,這里推薦一種方法,只需兩步,正確識(shí)別百度蜘蛛:
查看UA
如果UA都不對(duì),可以直接判斷非百度搜索的蜘蛛,目前對(duì)外公布過(guò)的UA是:
移動(dòng)UA 1:
Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,likeGecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0;+http://www.baidu.com/ search/ spider.html)
移動(dòng)UA 2:
Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 likeMac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)
PC UA 1:
Mozilla/5.0 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)
PC UA 2:
Mozilla/5.0(compatible;Baiduspider-render/2.0;+http://www.baidu.com/search/ spider.html)
反查IP
站長(zhǎng)可以通過(guò)DNS反查IP的方式判斷某只蜘蛛是否來(lái)自百度搜索引擎。根據(jù)平臺(tái)不同驗(yàn)證方法不同,如Linux/Windows/OS三種平臺(tái)下的驗(yàn)證方法分別如下:
在Linux平臺(tái)下,可以使用hostip命令反解IP來(lái)判斷是否來(lái)自百度蜘蛛的抓取。百度蜘蛛的hostname以*.baidu.com格式命名,非*.baidu.com即為冒充。
這里需要再提出一點(diǎn),建議使用DNS更換為8.8.8.8后進(jìn)行nslookup反向解析,否則很容易出現(xiàn)無(wú)返回或返回錯(cuò)誤的問(wèn)題。
在Windows平臺(tái)下,可以使用nslookup ip命令反解IP來(lái)判斷是否來(lái)自百度蜘蛛的抓取。打開(kāi)命令處理器輸入nslookup xxx.xxx.xxx.xxx(IP地址)就能解析IP,來(lái)判斷是否來(lái)自百度蜘蛛的抓取,百度蜘蛛的hostname以*.baidu.com格式命名,非*.baidu.com即為冒充。
在Mac OS平臺(tái)下,網(wǎng)站可以使用dig命令反解IP來(lái)判斷是否來(lái)自百度蜘蛛的抓取。打開(kāi)命令處理器輸入dig xxx.xxx.xxx.xxx(IP地址)就能解析IP,來(lái)判斷是否來(lái)自百度蜘蛛的抓取,百度蜘蛛的hostname以*.baidu.com的格式命名,非*.baidu.com即為冒充。
3.1.2.2 鏈接提交
鏈接提交工具是網(wǎng)站主動(dòng)向百度搜索推送數(shù)據(jù)的工具,網(wǎng)站使用鏈接提交可縮短爬蟲發(fā)現(xiàn)網(wǎng)站鏈接時(shí)間,目前鏈接提交工具支持四種方式提交:
√ 主動(dòng)推送:是最為快速的提交方式,建議將站點(diǎn)當(dāng)天新產(chǎn)出鏈接立即通過(guò)此方式推送給百度,以保證新鏈接可以及時(shí)被百度抓??;
√ Sitemap:網(wǎng)站可定期將網(wǎng)站鏈接放到Sitemap中,然后將Sitemap提交給百度。百度會(huì)周期性的抓取檢查提交的Sitemap,對(duì)其中的鏈接進(jìn)行處理,但抓取速度慢于主動(dòng)推送;
√ 手工提交:如果不想通過(guò)程序提交,那么可以采用此種方式,手動(dòng)將鏈接提交給百度;
√ 自動(dòng)推送:是輕量級(jí)鏈接提交組件,將自動(dòng)推送的JS代碼放置在站點(diǎn)每一個(gè)頁(yè)面源代碼中,當(dāng)頁(yè)面被訪問(wèn)時(shí),頁(yè)面鏈接會(huì)自動(dòng)推送給百度,有利于新頁(yè)面更快被百度發(fā)現(xiàn)。
簡(jiǎn)單來(lái)說(shuō):建議有新聞屬性站點(diǎn),使用主動(dòng)推送進(jìn)行數(shù)據(jù)提交;新驗(yàn)證平臺(tái)站點(diǎn),或內(nèi)容無(wú)時(shí)效性要求站點(diǎn),可以使用Sitemap將網(wǎng)站全部?jī)?nèi)容使用Sitemap提交;技術(shù)能力弱,或網(wǎng)站內(nèi)容較少的站點(diǎn),可使用手工提交方式進(jìn)行數(shù)據(jù)提交;最后,還可以使用插件方式,自動(dòng)推送方式給百度提交數(shù)據(jù)。
3.1.3 網(wǎng)頁(yè)抓取
3.1.3.1 訪問(wèn)速度
關(guān)于移動(dòng)頁(yè)面的訪問(wèn)速度,百度搜索資源平臺(tái)(原百度站長(zhǎng)平臺(tái))已于2017年10月推出過(guò)閃電算法,針對(duì)頁(yè)面首頁(yè)的打開(kāi)速度給予策略支持。閃電算法中指出,移動(dòng)搜索頁(yè)面首屏加載時(shí)間將影響搜索排名。移動(dòng)網(wǎng)頁(yè)首屏加載時(shí)間在2秒之內(nèi)的,在移動(dòng)搜索下將獲得提升頁(yè)面評(píng)價(jià)優(yōu)待,獲得流量?jī)A斜;同時(shí),在移動(dòng)搜索頁(yè)面首屏加載非常慢(3秒及以上)的網(wǎng)頁(yè)將會(huì)被打壓。
對(duì)于頁(yè)面訪問(wèn)速度的提速,這里也給到幾點(diǎn)建議:
資源加載:
√ 將同類型資源在服務(wù)器端壓縮合并,減少網(wǎng)絡(luò)請(qǐng)求次數(shù)和資源體積;
√ 引用通用資源,充分利用瀏覽器緩存;
√ 使用CDN加速,將用戶的請(qǐng)求定向到最合適的緩存服務(wù)器上;
√ 非首屏圖片類加載,將網(wǎng)絡(luò)帶寬留給首屏請(qǐng)求。
頁(yè)面渲染:
√ 將CSS樣式寫在頭部樣式表中,減少由CSS文件網(wǎng)絡(luò)請(qǐng)求造成的渲染阻塞;
√ 將JavaScript放到文檔末尾,或使用異步方式加載,避免JS執(zhí)行阻塞渲染;
√ 對(duì)非文字元素(如圖片,視頻)指定寬高,避免瀏覽器重排重繪;
希望廣大站長(zhǎng)持續(xù)關(guān)注頁(yè)面加載速度體驗(yàn),視網(wǎng)站自身情況,參照建議自行優(yōu)化頁(yè)面,或使用通用的加速解決方案(如MIP),不斷優(yōu)化頁(yè)面首屏加載時(shí)間。
了解MIP-移動(dòng)網(wǎng)頁(yè)加速器可參考:https://www.mipengine.org/
3.1.3.2 返回碼
HTTP狀態(tài)碼是用以表示網(wǎng)頁(yè)服務(wù)器HTTP響應(yīng)狀態(tài)的3位數(shù)字代碼。各位站長(zhǎng)在平時(shí)維護(hù)網(wǎng)站過(guò)程中,可能會(huì)在站長(zhǎng)工具后臺(tái)抓取異常里面或者服務(wù)器日志里看到各種各樣的響應(yīng)狀態(tài)碼,有些甚至?xí)绊懢W(wǎng)站的SEO效果,例如重點(diǎn)強(qiáng)調(diào)網(wǎng)頁(yè)404設(shè)置,百度搜索資源平臺(tái)(原百度站長(zhǎng)平臺(tái))中部分工具如死鏈提交,需要網(wǎng)站把內(nèi)容死鏈后進(jìn)行提交,這里要求設(shè)置必須是404。
下面為大家整理了一些常見(jiàn)的HTTP狀態(tài)碼:
301:(永久移動(dòng))請(qǐng)求的網(wǎng)頁(yè)已被永久移動(dòng)到新位置。服務(wù)器返回此響應(yīng)(作為對(duì)GET或HEAD請(qǐng)求的響應(yīng))時(shí),會(huì)自動(dòng)將請(qǐng)求者轉(zhuǎn)到新位置。
302:(臨時(shí)移動(dòng))服務(wù)器目前正從不同位置的網(wǎng)頁(yè)響應(yīng)請(qǐng)求,但請(qǐng)求者應(yīng)繼續(xù)使用原有位置來(lái)進(jìn)行以后的請(qǐng)求。此代碼與響應(yīng)GET和HEAD請(qǐng)求的301代碼類似,會(huì)自動(dòng)將請(qǐng)求者轉(zhuǎn)到不同的位置。
這里強(qiáng)調(diào)301與302的區(qū)別:
301/302的關(guān)鍵區(qū)別在于:這個(gè)資源是否存在/有效;
301指資源還在,只是換了一個(gè)位置,返回的是新位置的內(nèi)容;
302指資源暫時(shí)失效,返回的是一個(gè)臨時(shí)的代替頁(yè)(例如鏡像資源、首頁(yè)、404頁(yè)面)上。注意如果永久失效應(yīng)當(dāng)使用404。
有時(shí)站長(zhǎng)認(rèn)為百度對(duì)302不友好,可能是誤用了302處理仍然有效的資源;
400:(錯(cuò)誤請(qǐng)求)服務(wù)器不理解請(qǐng)求的語(yǔ)法;
403:(已禁止)服務(wù)器已經(jīng)理解請(qǐng)求,但是拒絕執(zhí)行它;
404:(未找到)服務(wù)器找不到請(qǐng)求的網(wǎng)頁(yè);
這里不得不提的一點(diǎn),很多站長(zhǎng)想自定義404頁(yè)面,需要做到確保蜘蛛訪問(wèn)時(shí)返回狀態(tài)碼為404,若因?yàn)?04頁(yè)面跳轉(zhuǎn)時(shí)設(shè)置不當(dāng),返回了200狀態(tài)碼,則容易被搜索引擎認(rèn)為網(wǎng)站上出現(xiàn)了大量重復(fù)頁(yè)面,從而對(duì)網(wǎng)站評(píng)價(jià)造成影響;
500:(服務(wù)器內(nèi)部錯(cuò)誤)服務(wù)器遇到錯(cuò)誤,無(wú)法完成請(qǐng)求;
502:(錯(cuò)誤網(wǎng)關(guān))服務(wù)器作為網(wǎng)關(guān)或代理,從上游服務(wù)器收到了無(wú)效的響應(yīng);
503:(服務(wù)不可用)目前無(wú)法使用服務(wù)器(由于超載或進(jìn)行停機(jī)維護(hù))。通常,這只是一種暫時(shí)的狀態(tài);
504:(網(wǎng)關(guān)超時(shí))服務(wù)器作為網(wǎng)關(guān)或代理,未及時(shí)從上游服務(wù)器接收請(qǐng)求。
3.1.3.3 robots
robots工具的詳細(xì)工具使用說(shuō)明,細(xì)節(jié)參考4.3.4robots工具章節(jié),關(guān)于robots的使用,僅強(qiáng)調(diào)以下兩點(diǎn):
√ 百度蜘蛛目前在robots里是不支持中文的,故網(wǎng)站robots文件編寫不建議使用中文字符;
√ robots文件支持UrlEncode編碼這種寫法,如:http://www.test.cn/%E7%89%B9%E6%AE%8A:%E6%B5%8F%E8%A7%88/%E7%94%9F%E6%AD%BB%E7%8B%99%E5%87%BB:%E7%99%BD%E9%93%B6%E5%8A%A0%E7%89%B9%E6%9E%97
3.1.3.4 死鏈
當(dāng)網(wǎng)站死鏈數(shù)據(jù)累積過(guò)多,并且被展示到搜索結(jié)果頁(yè)中,對(duì)網(wǎng)站本身的訪問(wèn)體驗(yàn)和用戶轉(zhuǎn)化都起到了負(fù)面影響。另一方面,百度檢查死鏈的流程也會(huì)為網(wǎng)站帶來(lái)額外負(fù)擔(dān),影響網(wǎng)站其他正常頁(yè)面的抓取和索引。
百度搜索資源平臺(tái)(原百度站長(zhǎng)平臺(tái))推出死鏈提交工具,幫助網(wǎng)站提交死鏈數(shù)據(jù),死鏈提交工具使用參考4.3.2死鏈提交工具。
什么是死鏈及死鏈的標(biāo)準(zhǔn)
頁(yè)面已經(jīng)無(wú)效,無(wú)法對(duì)用戶提供任何有價(jià)值信息的頁(yè)面就是死鏈接,比較常見(jiàn)死鏈形式共有3種,協(xié)議死鏈和內(nèi)容死鏈?zhǔn)潜容^常見(jiàn)兩種形式,除此之外還有跳轉(zhuǎn)死鏈。
√ 協(xié)議死鏈:頁(yè)面的TCP協(xié)議狀態(tài)/HTTP協(xié)議狀態(tài)明確表示的死鏈,常見(jiàn)的如404、403、503狀態(tài)等;
√ 內(nèi)容死鏈:服務(wù)器返回狀態(tài)是正常的,但內(nèi)容已經(jīng)變更為不存在、已刪除或需要權(quán)限等與原內(nèi)容無(wú)關(guān)的信息頁(yè)面;
√ 跳轉(zhuǎn)死鏈:指頁(yè)面內(nèi)容已經(jīng)失效,跳轉(zhuǎn)到報(bào)錯(cuò)頁(yè),首頁(yè)等行為。
3.1.4 訪問(wèn)穩(wěn)定性
訪問(wèn)穩(wěn)定性主要有以下幾個(gè)注意點(diǎn):
DNS解析
DNS是域名解析服務(wù)器,關(guān)于DNS,這里建議中文網(wǎng)站盡可能使用國(guó)內(nèi)大型服務(wù)商提供的DNS服務(wù),以保證站點(diǎn)的穩(wěn)定解析。
分享一個(gè)DNS穩(wěn)定性的示例:
搜索資源平臺(tái)(原站長(zhǎng)平臺(tái))曾收到多個(gè)站長(zhǎng)反饋,稱網(wǎng)站從百度網(wǎng)頁(yè)搜索消失,site發(fā)現(xiàn)網(wǎng)站數(shù)據(jù)為0。
經(jīng)追查發(fā)現(xiàn)這些網(wǎng)站都使用國(guó)外某品牌的DNS服務(wù)器 *.DOMAINCONTROL.COM,此系列DNS服務(wù)器存在穩(wěn)定性問(wèn)題,百度蜘蛛經(jīng)常解析不到IP,在百度蜘蛛看來(lái),網(wǎng)站是死站點(diǎn)。此前也發(fā)現(xiàn)過(guò)多起小DNS服務(wù)商屏蔽百度蜘蛛解析請(qǐng)求或者國(guó)外DNS服務(wù)器不穩(wěn)定的案例。因此這里建議網(wǎng)站,謹(jǐn)慎選擇DNS服務(wù)。
蜘蛛封禁
針對(duì)爬蟲的封禁會(huì)導(dǎo)致爬蟲認(rèn)為網(wǎng)站不可正常訪問(wèn),進(jìn)而采取對(duì)應(yīng)的措施。爬蟲封禁其實(shí)分兩種,一種就是傳統(tǒng)的robots封禁,另一種是需要技術(shù)人員配合的IP封禁和UA封禁;而絕大多數(shù)情況下的封禁都是一些操作不當(dāng)導(dǎo)致的誤封禁,然后在搜索引擎上的反應(yīng)就是爬蟲不能正常訪問(wèn)。所以針對(duì)爬蟲封禁的操作一定要慎重,即使因?yàn)樵L問(wèn)壓力問(wèn)題要臨時(shí)封禁,也要盡快做恢復(fù)處理。
服務(wù)器負(fù)載
拋開(kāi)服務(wù)器硬件問(wèn)題(不可避免),絕大多數(shù)引起服務(wù)器負(fù)載過(guò)高的情況是軟件程序引起的,如程序有內(nèi)存泄露,程序出core,不合理混布服務(wù)(其中一個(gè)服務(wù)消耗服務(wù)器資源過(guò)大引起服務(wù)器負(fù)載增大,影響了服務(wù)器對(duì)爬蟲訪問(wèn)請(qǐng)求的響應(yīng)。)對(duì)于提供服務(wù)的機(jī)器一定要注意服務(wù)器的負(fù)載,留足夠的buffer保證服務(wù)器具有一定的抗壓能力。
其他人為因素
人為操作不當(dāng)引起訪問(wèn)異常的情況是經(jīng)常見(jiàn)到的,針對(duì)這種情況需要嚴(yán)格的制度約束,不同站點(diǎn)情況不一樣。需要保證每一次的升級(jí)或者操作要準(zhǔn)確無(wú)誤。
3.1.5 可訪問(wèn)鏈接總量
3.1.5.1 資源可窮盡
一般來(lái)說(shuō)網(wǎng)站的內(nèi)容頁(yè)面是可窮盡的,萬(wàn)級(jí)別,百萬(wàn)級(jí)別甚至億級(jí)別,但一定是可窮盡的。而現(xiàn)實(shí)中確實(shí)存在這樣一些網(wǎng)站,爬蟲針對(duì)這些網(wǎng)站進(jìn)行抓取提鏈時(shí)會(huì)陷入"鏈接黑洞";通俗的講就是網(wǎng)站給爬蟲呈現(xiàn)的鏈接不可窮盡;典型的是部分網(wǎng)站的搜索結(jié)果頁(yè),不同的query在不同anchor下的a標(biāo)簽鏈接不一樣就導(dǎo)致了"鏈接黑洞"的產(chǎn)生,所以嚴(yán)禁URL的生成跟用戶的訪問(wèn)行為或者搜索詞等因素綁定。
3.2 頁(yè)面解析
頁(yè)面解析,主要指網(wǎng)站頁(yè)面被蜘蛛抓取,會(huì)對(duì)頁(yè)面進(jìn)行分析識(shí)別,稱之為頁(yè)面解析。頁(yè)面解析對(duì)網(wǎng)站至關(guān)重要,網(wǎng)站內(nèi)容被抓取是網(wǎng)站被發(fā)現(xiàn)的第一步,而頁(yè)面解析,則是網(wǎng)站內(nèi)容被識(shí)別出來(lái)的重要一環(huán),頁(yè)面解析效果直接影響搜索引擎對(duì)網(wǎng)站的評(píng)價(jià)。
3.2.1 頁(yè)面元素
3.2.1.1 頁(yè)面標(biāo)題
關(guān)于網(wǎng)頁(yè)標(biāo)題,百度搜索于2017年9月推出清風(fēng)算法,重點(diǎn)打擊網(wǎng)站標(biāo)題作弊,引導(dǎo)用戶點(diǎn)擊,損害用戶體驗(yàn)的行為;清風(fēng)算法重點(diǎn)打擊的標(biāo)題作弊情況有以下兩種:
√ 文不對(duì)題,網(wǎng)站標(biāo)題與正文有明顯不符合,誤導(dǎo)搜索用戶點(diǎn)擊,對(duì)搜索用戶造成傷害;
√ 大量堆砌,網(wǎng)站標(biāo)題中出現(xiàn)大量堆砌關(guān)鍵詞的情況也十分不提倡,
關(guān)于網(wǎng)站標(biāo)題作弊的詳細(xì)解讀,參考搜索學(xué)院發(fā)布官方文檔《百度搜索內(nèi)容質(zhì)量白皮書——網(wǎng)頁(yè)標(biāo)題作弊詳解》。
關(guān)于網(wǎng)站TDK,有以下幾種情況需要注意:("T"代表頁(yè)頭中的title元素,"D"代表頁(yè)頭中的description元素,"K"代表頁(yè)頭中的keywords元素,簡(jiǎn)單指網(wǎng)站的標(biāo)題、描述和摘要);
√ 百度未承諾嚴(yán)格按照title和description的內(nèi)容展示標(biāo)題和摘要,尤其是摘要,會(huì)根據(jù)用戶檢索的關(guān)鍵詞,自動(dòng)匹配展示合適的摘要內(nèi)容,讓用戶了解網(wǎng)頁(yè)的主要內(nèi)容,影響用戶的行為決策;
√ 站長(zhǎng)會(huì)發(fā)現(xiàn)同一條鏈接的摘要在不同關(guān)鍵詞下是變化的,可能不會(huì)完全符合站長(zhǎng)預(yù)期,尤其是站長(zhǎng)在檢索框進(jìn)行site語(yǔ)法操作時(shí),可能會(huì)感覺(jué)摘要都比較差。但請(qǐng)不要擔(dān)心,畢竟絕大多數(shù)普通網(wǎng)民不會(huì)這樣操作。在此情況下出現(xiàn)不符合預(yù)期的摘要并不代表站點(diǎn)被懲罰;
√ 還有一種情況,是網(wǎng)頁(yè)中的HTML代碼有誤,導(dǎo)致百度無(wú)法解析出摘要,所以有時(shí)大家會(huì)看到某些結(jié)果的摘要是亂碼(當(dāng)然這種情況很少見(jiàn)),所以也請(qǐng)站長(zhǎng)注意代碼規(guī)范。
3.2.1.2 主體內(nèi)容
主體內(nèi)容注意兩個(gè)點(diǎn),一個(gè)主體內(nèi)容過(guò)長(zhǎng)(通常網(wǎng)頁(yè)源碼長(zhǎng)度不能超過(guò)128k),文章過(guò)長(zhǎng)可能會(huì)引起抓取截?cái)?;另外一個(gè)是注意內(nèi)容不能空短,空短內(nèi)容也會(huì)被判斷為無(wú)價(jià)值內(nèi)容。
以下分析兩個(gè)示例:
關(guān)于主體內(nèi)容過(guò)長(zhǎng)的示例分析:
某網(wǎng)站主體內(nèi)容都是JS生成,針對(duì)用戶訪問(wèn),沒(méi)有做優(yōu)化;但是網(wǎng)站特針對(duì)爬蟲抓取做了優(yōu)化,直接將圖片進(jìn)行base64編碼推送給百度,然而優(yōu)化后發(fā)現(xiàn)內(nèi)容沒(méi)有被百度展示出來(lái);
頁(yè)面質(zhì)量很好,還特意針對(duì)爬蟲做了優(yōu)化,為什么內(nèi)容反而無(wú)法出現(xiàn)在百度搜索中;
分析主要有以下原因:
√ 網(wǎng)站針對(duì)爬蟲爬取做的優(yōu)化,是直接將圖片base64編碼后放到HTML中,導(dǎo)致頁(yè)面長(zhǎng)度過(guò)長(zhǎng),網(wǎng)站頁(yè)面長(zhǎng)度達(dá)164k;
√ 站點(diǎn)優(yōu)化后將主體內(nèi)容放于最后,圖片卻放于前面;
√ 爬蟲抓取內(nèi)容后,頁(yè)面內(nèi)容過(guò)長(zhǎng)被截?cái)?,已抓取部分無(wú)法識(shí)別到主體內(nèi)容,最終導(dǎo)致頁(yè)面被認(rèn)定為空短而不建索引。
這樣的情況給到以下建議:
√ 如站點(diǎn)針對(duì)爬蟲爬取做優(yōu)化,建議網(wǎng)站源碼長(zhǎng)度在128k之內(nèi),不要過(guò)長(zhǎng);
√ 針對(duì)爬蟲爬取做優(yōu)化,請(qǐng)將主體內(nèi)容放于前方,避免抓取截?cái)嘣斐傻膬?nèi)容抓取不全。
關(guān)于內(nèi)容空短的示例分析:
某網(wǎng)站反饋網(wǎng)站內(nèi)容未被建索引,分析發(fā)現(xiàn),網(wǎng)站抓取沒(méi)有問(wèn)題,但被抓取到的頁(yè)面,都提示需要輸入驗(yàn)證碼才能查看全部頁(yè)面,這類頁(yè)面被判斷為空短頁(yè)面,這類頁(yè)面在抓取后,會(huì)被判定為垃圾內(nèi)容。
而且當(dāng)蜘蛛對(duì)一個(gè)網(wǎng)站抓取后發(fā)現(xiàn)大面積都是低值的空短頁(yè)面時(shí),爬蟲會(huì)認(rèn)為這個(gè)站點(diǎn)的整體價(jià)值比較低,那么在后面的抓取流量分布上會(huì)降低,導(dǎo)致針對(duì)該站點(diǎn)的頁(yè)面更新會(huì)比較慢,進(jìn)而抓取甚至建索引庫(kù)也會(huì)比較慢。
為什么會(huì)出現(xiàn)網(wǎng)站內(nèi)容空短這種情況,其中一個(gè)原因是網(wǎng)站內(nèi)容未全部搭建完成,未對(duì)外開(kāi)放,但已被蜘蛛爬取發(fā)現(xiàn)。針對(duì)這種情況,建議網(wǎng)站在邀請(qǐng)測(cè)試階段使用robots封禁。
另外還會(huì)有些網(wǎng)站,設(shè)置用戶查看權(quán)限,如需用戶登陸才能查看全部?jī)?nèi)容,這樣的行為對(duì)搜索引擎也極不友好,蜘蛛無(wú)法模擬用戶登陸,僅能抓取網(wǎng)站已展示頁(yè)面,可能會(huì)導(dǎo)致抓取頁(yè)面為空短的現(xiàn)象。
這里再次強(qiáng)調(diào),不要讓爬蟲給站點(diǎn)畫上不優(yōu)質(zhì)的標(biāo)簽,對(duì)網(wǎng)站將產(chǎn)生很不好的影響。另外,移動(dòng)端的H5頁(yè)面,很多都是采用JS方式加載,其實(shí)是更容易產(chǎn)生空短,請(qǐng)各位站長(zhǎng)注意。
3.2.1.3 網(wǎng)頁(yè)發(fā)布時(shí)間
關(guān)于網(wǎng)頁(yè)發(fā)布時(shí)間,有以下幾點(diǎn)建議:
√ 網(wǎng)頁(yè)內(nèi)容盡可能加上產(chǎn)出時(shí)間,嚴(yán)格說(shuō)是內(nèi)容發(fā)布時(shí)間;且時(shí)間盡量全,時(shí)間格式為年-月-日 時(shí):分:秒;
例:2017-08-12 10:23:06
√ 網(wǎng)頁(yè)上切忌亂加時(shí)間,這樣容易造成頁(yè)面時(shí)間提取問(wèn)題,或搜索引擎判斷提取時(shí)間不可信,從而降低對(duì)網(wǎng)頁(yè)的展現(xiàn)。
3.2.1.4 canonical標(biāo)簽
canonical標(biāo)簽的目的
在PC互聯(lián)網(wǎng)時(shí)代,canonical標(biāo)簽的作用主要是用來(lái)解決由于網(wǎng)址形式不同內(nèi)容相同而造成的內(nèi)容重復(fù)問(wèn)題。而在移動(dòng)時(shí)代,canonical標(biāo)簽被百度搜索賦予了更多的意義,在原來(lái)的作用基礎(chǔ)上,又起到了相同內(nèi)容的移動(dòng)頁(yè)和PC頁(yè)之間的關(guān)聯(lián)作用;讓移動(dòng)資源更容易繼承PC資源的各種特征,從而快速生效移動(dòng)網(wǎng)頁(yè)數(shù)據(jù)。
canonical標(biāo)簽如何設(shè)置
在HTML代碼的head里添加rel="canonical",不能添加多個(gè),否則搜索引擎會(huì)認(rèn)為是無(wú)效的canonical標(biāo)簽。另外需要注意href里的地址不能是死鏈,錯(cuò)誤頁(yè)或者被robots封禁的頁(yè)面。
具體示例如下:
3.2.2 落地頁(yè)體驗(yàn)
為提升移動(dòng)搜索整體用戶體驗(yàn),提升搜索滿意度,百度搜索在2017年推出《百度移動(dòng)搜索落地頁(yè)體驗(yàn)白皮書——廣告篇2.0》(以下簡(jiǎn)稱廣告白皮書)。廣告白皮書對(duì)網(wǎng)站移動(dòng)落地頁(yè)頁(yè)面廣告內(nèi)容、廣告位置、大小等做了明確要求,從而充分保證搜索用戶的瀏覽體驗(yàn)。
白皮書詳情,請(qǐng)參考搜索學(xué)院官方文檔《百度移動(dòng)搜索落地頁(yè)體驗(yàn)白皮書——廣告篇2.0》
3.3 頁(yè)面價(jià)值
3.3.1 內(nèi)容價(jià)值
原創(chuàng)文章,要求是獨(dú)立完成的創(chuàng)作,且沒(méi)有歪曲、篡改他人創(chuàng)作或者抄襲、剽竊他人創(chuàng)作而產(chǎn)生的作品,對(duì)于改編、注釋、整理他人已有創(chuàng)作而產(chǎn)生的作品要求有充分的點(diǎn)評(píng)、補(bǔ)充等增益信息。
建議原創(chuàng)文章在標(biāo)題下方明確注明“來(lái)源:xxxx(本站站點(diǎn)名)”或“本站原創(chuàng)”之類字樣,轉(zhuǎn)載文章明確注明“來(lái)源:xxxx(轉(zhuǎn)載來(lái)源站點(diǎn)名)”之類字樣,不建議使用“admin”、“webmaster”、“佚名”等模糊的說(shuō)法。
3.3.2 外鏈建設(shè)
通常認(rèn)為,外鏈?zhǔn)潜菊军c(diǎn)對(duì)第三方站點(diǎn)頁(yè)面的鏈接指向,是本站點(diǎn)對(duì)第三方站點(diǎn)頁(yè)面內(nèi)容的一種認(rèn)可和推薦。
站點(diǎn)進(jìn)行外鏈建設(shè)時(shí),建議是有真實(shí)推薦意圖,并且指向那些熟悉的、被認(rèn)可的、內(nèi)容相關(guān)的外部頁(yè)面;不建議推薦與本站點(diǎn)頁(yè)面內(nèi)容無(wú)關(guān)的外鏈內(nèi)容。也不建議亂推薦外鏈、交換外鏈互聯(lián)、指向作弊站的行為(這些很可能被超鏈策略反向識(shí)別成垃圾作弊站點(diǎn)進(jìn)行打壓)。
最后,站長(zhǎng)要及時(shí)發(fā)現(xiàn)和處理站點(diǎn)被黑的頁(yè)面。頁(yè)面被黑掉后,一般會(huì)被人為放入大量無(wú)關(guān)的,甚至作弊的外鏈在該頁(yè)面上,其目的是要瓜分站點(diǎn)自身權(quán)重,并以此來(lái)提高外鏈目標(biāo)站點(diǎn)影響力。建議站長(zhǎng)發(fā)現(xiàn)后,及時(shí)向搜索資源平臺(tái)(原站長(zhǎng)平臺(tái))提交死鏈進(jìn)行刪除和屏蔽,不及時(shí)處理一定程度上會(huì)影響站點(diǎn)本身的權(quán)重。最好從技術(shù)上優(yōu)化,提高站點(diǎn)安全壁壘,防范于未然。
3.3.3 內(nèi)鏈建設(shè)
內(nèi)鏈,描述了站點(diǎn)的結(jié)構(gòu),一般起到頁(yè)面內(nèi)容組織和站內(nèi)引導(dǎo)的作用;內(nèi)鏈的重要意思是通過(guò)鏈接指向,告訴搜索引擎哪個(gè)頁(yè)面最為重要。
內(nèi)鏈組織的時(shí)候,建議結(jié)構(gòu)清晰,不要過(guò)于冗雜,另外內(nèi)鏈組織的版式建議保持一致,這樣對(duì)搜索引擎超鏈分析比較友好。
與外鏈類似,建議站長(zhǎng)善于使用nofollow標(biāo)簽,既對(duì)搜索引擎友好,又可避免因垃圾link影響到站點(diǎn)本身的權(quán)重。
3.3.4 anchor
anchor描述:盡可能使用典型的,有真實(shí)意義的anchor。anchor描述要與超鏈接的頁(yè)面內(nèi)容大致相符,避免高頻無(wú)意義anchor的使用,另外同一個(gè)URL的anchor描述種類不宜過(guò)多,anchor分布越稀疏會(huì)影響搜索排名。
本文標(biāo)題:《移動(dòng)搜索建站優(yōu)化白皮書》百度發(fā)布-網(wǎng)站優(yōu)化
本文鏈接http://njylbyy.cn/xinwenzhongxin/1101.html
- 商丘阿里國(guó)際站代運(yùn)營(yíng):如何提升點(diǎn)擊率
- 商丘阿里國(guó)際站代運(yùn)營(yíng):阿里國(guó)際站沒(méi)效果怎么辦?
- 商丘外貿(mào)推廣:Facebook賬號(hào)怎么注冊(cè)
- 商丘外貿(mào)推廣:Facebook營(yíng)銷如何開(kāi)展
- 商丘建跨境獨(dú)立站公司哪家好
- 商丘外貿(mào)建站公司哪家好
- 商丘阿里國(guó)際站代運(yùn)營(yíng):常見(jiàn)運(yùn)營(yíng)誤區(qū)有哪些
- 商丘阿里國(guó)際站代運(yùn)營(yíng):這些運(yùn)營(yíng)錯(cuò)誤千萬(wàn)不要犯!
- 商丘外貿(mào)建站推廣為什么要重視新聞板塊
- 商丘外貿(mào)推廣如何進(jìn)行新聞撰寫
- 商丘阿里國(guó)際站代運(yùn)營(yíng):現(xiàn)在阿里國(guó)際站還能做嗎?
- 商丘阿里國(guó)際站代運(yùn)營(yíng)提醒:國(guó)際站開(kāi)通前這些準(zhǔn)備要做好
- 商丘外貿(mào)推廣為什么離不開(kāi)外貿(mào)建站
- 商丘外貿(mào)建站有什么作用
- 商丘阿里國(guó)際站代運(yùn)營(yíng):這些細(xì)節(jié)不可忽視
- 商丘阿里國(guó)際站代運(yùn)營(yíng):這些基礎(chǔ)工作要做好
- 商丘外貿(mào)建站如何做更具有吸引力
- 商丘外貿(mào)建站怎么樣做有利于推廣
- 商丘阿里國(guó)際站代運(yùn)營(yíng):運(yùn)營(yíng)這幾個(gè)誤區(qū)你中了幾個(gè)
- 商丘阿里國(guó)際站代運(yùn)營(yíng):不要讓這些失誤影響了你的效果