欧美激情日韩色图无码,www日本色图,在线播放的双渗透视频

新聞中心

新聞中心

商丘網(wǎng)站優(yōu)化中robots.txt文檔要如何設(shè)置？

發(fā)布時(shí)間：2022-04-19 14:44文章來(lái)源：網(wǎng)絡(luò) 點(diǎn)擊數(shù)：作者：商丘seo

相信有過(guò)商丘網(wǎng)站優(yōu)化經(jīng)歷的seo從業(yè)者對(duì)于robots.txt文檔并不陌生，那么您真的了解robots嗎？您會(huì)設(shè)置robots嗎？下面讓商丘網(wǎng)站建設(shè)公司-迅優(yōu)網(wǎng)絡(luò)來(lái)為您分析一下：

青島網(wǎng)站優(yōu)化中robots.txt文檔要如何設(shè)置？青島網(wǎng)站優(yōu)化中robots

1、什么是robots.txt文件
     搜索引擎有自己的搜索習(xí)慣，當(dāng)它對(duì)一個(gè)網(wǎng)站進(jìn)行搜索時(shí)，哪些目錄和文件要看，哪些不用看，它有自己的算法。我們也可以自己建立一個(gè)robots.txt文件，告訴搜索引擎的機(jī)器人哪些可以被收錄，哪些不需要收錄。這樣可以節(jié)約自己網(wǎng)站的資源，提高被搜索引擎收錄的效率。

２、robots.txt放置位置
    robots.txt必須放置在一個(gè)站點(diǎn)的根目錄下，而且文件名必須全部小寫(xiě)。

３、robots相關(guān)語(yǔ)法
    1)User-agent: 適用下列規(guī)則的漫游器(搜索引擎)
　　該項(xiàng)的值用于描述搜索引擎robot的名字。在robots.txt文件中，如果有多條User-agent記錄，就說(shuō)明有多個(gè)robot會(huì)受到 robots.txt的限制，對(duì)該文件來(lái)說(shuō)，至少要有一條User-agent記錄。如果該項(xiàng)的值設(shè)為*，則對(duì)任何robot均有效。
      ●　Google爬蟲(chóng)名稱(chēng): Googlebot
      ●　百度（Baidu）爬蟲(chóng)名稱(chēng)：Baiduspider
      ●　雅虎（Yahoo）爬蟲(chóng)名稱(chēng)：Yahoo Slurp
      ●　有道（Yodao）蜘蛛名稱(chēng)：YodaoBot
      ●　搜狗（sogou）蜘蛛名稱(chēng)：sogou spider
      ●　MSN的蜘蛛名稱(chēng)(微軟最新搜索引擎Bing蜘蛛名也是這個(gè))：Msnbot

    ２）Disallow: 拒絕訪(fǎng)問(wèn)的目錄或文件
　　該項(xiàng)的值用于描述不希望被訪(fǎng)問(wèn)的一組URL，這個(gè)值可以是一條完整的路徑，也可以是路徑的非空前綴，以Disallow項(xiàng)的值開(kāi)頭的URL不會(huì)被robot訪(fǎng)問(wèn)。
     例如：
         Disallow:/seo.html       表示禁止robot訪(fǎng)問(wèn)文件 /seo.html

    ３）Allow:允許訪(fǎng)問(wèn)的目錄或文件
     該項(xiàng)的值用于描述希望被訪(fǎng)問(wèn)的一組URL，與Disallow項(xiàng)相似，這個(gè)值可以是一條完整的路徑，也可以是路徑的前綴，以Allow項(xiàng)的值開(kāi)頭的URL是允許robot訪(fǎng)問(wèn)的。
      例如：
           Allow:/hibaidu/         表示允許robot訪(fǎng)問(wèn)目錄 /hibaidu/

     4)使用通配符"*"和"$"：
     　　 $   匹配行結(jié)束符。
　　      *   匹配0或多個(gè)任意字符。
          ?   匹配1個(gè)任意字符

     5)robots.txt文件里還可以直接包括在sitemap文件的鏈接。
        Sitemap:http://www.lemigift.com/sitemaps.xml

4、robots.txt文件用法舉例
     1)、攔截所有的機(jī)器人訪(fǎng)問(wèn)網(wǎng)站
       User-agent: *
       Disallow: /

     2)、允許所有的機(jī)器人訪(fǎng)問(wèn)網(wǎng)站
       User-agent: *
       Allow: /
     3)、禁止所有機(jī)器人訪(fǎng)問(wèn)特定目錄：
       User-agent: *
       Disallow: /public/
       Disallow: /images/
       Disallow: /temp/
       Disallow: /include/

     4)、禁止特定搜索引擎蜘蛛訪(fǎng)問(wèn)特定目錄(這里我們以百度蜘蛛為例說(shuō)明)
       User-agent: Baiduspider
       Disallow: /test/
         上面的robots.txt語(yǔ)法示例的意思是禁止百度蜘蛛爬行根目錄下的test目錄

     5)、僅禁止Baiduspider抓取.jpg格式圖片
       User-agent: Baiduspider
       Disallow: .jpg$

　　 6)、僅允許訪(fǎng)問(wèn)以".htm"為后綴的URL。
       User-agent: *
       Allow: .htm$
       Disallow: /

　　 7)、禁止訪(fǎng)問(wèn)網(wǎng)站中所有的動(dòng)態(tài)頁(yè)面
       User-agent: *
       Disallow: /*?*

5、常見(jiàn)robots.txt錯(cuò)誤
　　 1)、把多個(gè)禁止命令放在一行中：
　　   錯(cuò)誤地寫(xiě)法
　　   Disallow: /css/ /cgi-bin/ /images/
　　   正確的寫(xiě)法
　　   Disallow: /css/
　　   Disallow: /cgi-bin/
　　   Disallow: /images/
2)、表示目錄時(shí)，忘記了斜杠/
　　   錯(cuò)誤的寫(xiě)法
　　   User-agent: Baiduspider
　　   Disallow: css
　　   正確的寫(xiě)法
　　   User-agent: Baiduspider
　　   Disallow: /css/

6、robots meta網(wǎng)頁(yè)標(biāo)簽寫(xiě)法
Robots META標(biāo)簽則主要是針對(duì)一個(gè)個(gè)具體的頁(yè)面。和其他的META標(biāo)簽（如使用的語(yǔ)言、頁(yè)面的描述、關(guān)鍵詞等）一樣，Robots META標(biāo)簽也是放在頁(yè)面的＜head＞＜/head＞中，專(zhuān)門(mén)用來(lái)告訴搜索引擎ROBOTS如何抓取該頁(yè)的內(nèi)容。
Robots META標(biāo)簽的寫(xiě)法：
Robots META標(biāo)簽中沒(méi)有大小寫(xiě)之分，name=”Robots”表示所有的搜索引擎，可以針對(duì)某個(gè)具體搜索引擎寫(xiě)為name=”BaiduSpider”。 content部分有四個(gè)指令選項(xiàng)：index、noindex、follow、nofollow，指令間以“,”分隔。
INDEX 指令告訴搜索機(jī)器人抓取該頁(yè)面；
FOLLOW 指令表示搜索機(jī)器人可以沿著該頁(yè)面上的鏈接繼續(xù)抓取下去；
Robots Meta標(biāo)簽的缺省值是INDEX和FOLLOW，只有inktomi除外，對(duì)于它，缺省值是INDEX,NOFOLLOW。
這樣，一共有四種組合：
＜META NAME="ROBOTS" CONTENT="INDEX,FOLLOW"＞
＜META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW"＞
＜META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW"＞
＜META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW"＞
其中
＜META NAME="ROBOTS" CONTENT="INDEX,FOLLOW"＞可以寫(xiě)成＜META NAME="ROBOTS" CONTENT="ALL"＞；
＜META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW"＞可以寫(xiě)成＜META NAME="ROBOTS" CONTENT="NONE"＞
目前看來(lái)，絕大多數(shù)的搜索引擎機(jī)器人都遵守robots.txt的規(guī)則，而對(duì)于Robots META標(biāo)簽，目前支持的并不多，但是正在逐漸增加，如著名搜索引擎GOOGLE就完全支持，而且GOOGLE還增加了一個(gè)指令“archive”，可以限制GOOGLE是否保留網(wǎng)頁(yè)快照。例如：
＜META NAME="googlebot" CONTENT="index,follow,noarchive"＞
表示抓取該站點(diǎn)中頁(yè)面并沿著頁(yè)面中鏈接抓取，但是不在GOOLGE上保留該頁(yè)面的網(wǎng)頁(yè)快照。