seo優(yōu)化中robots協(xié)議應(yīng)該如何書(shū)寫(xiě)
2020-09-02 16:51:37
? ? ? ?在做網(wǎng)站的seo優(yōu)化的過(guò)程中,robots協(xié)議是一個(gè)很重要的部分!蜘蛛在抓取你網(wǎng)站之前,都會(huì)先去訪問(wèn)robots協(xié)議,蜘蛛將會(huì)根據(jù)robots協(xié)議所寫(xiě)的規(guī)則,進(jìn)行合理的抓取網(wǎng)站頁(yè)面。
什么是robots協(xié)議呢?
? ? ? ?簡(jiǎn)單的來(lái)說(shuō)robots協(xié)議是你網(wǎng)站跟搜索引擎爬蟲(chóng)程序之間的一個(gè)協(xié)議。通過(guò)這個(gè)文件告訴搜索引擎的蜘蛛,你的網(wǎng)站哪些文件是允許它抓取收錄的,哪些文件我們不想讓搜索引擎抓取收錄的。切記,只是一種協(xié)議,并非是命令。當(dāng)搜索引擎的蜘蛛在抓取網(wǎng)頁(yè)的時(shí)候,首先就會(huì)檢測(cè)網(wǎng)站有沒(méi)有這個(gè)robots文件,如果有這個(gè)文件,就會(huì)根據(jù)這個(gè)文件的協(xié)議來(lái)抓取網(wǎng)頁(yè),如果網(wǎng)站沒(méi)有這個(gè)文件,就表明它隨意抓取你的網(wǎng)站任何頁(yè)面。這個(gè)文件的全拼是robots.txt 存放在網(wǎng)站的根目錄里面。
一般書(shū)寫(xiě)robots文件的時(shí)候我們會(huì)用到一個(gè)蜘蛛名稱(chēng)的通配符*,代表了是所有搜索引擎蜘蛛的名稱(chēng)。
User-agent: 后面跟的是蜘蛛的名稱(chēng) ,一般我們的網(wǎng)站都用*代替所有蜘蛛的名稱(chēng)。
Disallow: 后面跟的你網(wǎng)站禁止抓取收錄的文件名
Allow: 后面跟的是允許抓取收錄的文件名。
? ? ? ?我們?cè)谧鏊阉饕鎯?yōu)化的時(shí)候都希望網(wǎng)站被收錄的頁(yè)面都是有實(shí)際內(nèi)容的頁(yè)面,可以參與排名為用戶解決問(wèn)題的頁(yè)面。我們網(wǎng)站也有很多文件其實(shí)是不需要它用來(lái)參與排名的,例如網(wǎng)站的css文件。js文件等等。把不需要的文件給屏蔽掉其實(shí)也是為了提高蜘蛛抓取網(wǎng)站重點(diǎn)頁(yè)面的效率。
在書(shū)寫(xiě)robots文件的時(shí)候一定要結(jié)合自己的網(wǎng)站文件來(lái)書(shū)寫(xiě),這個(gè)不是每個(gè)網(wǎng)站的目錄名稱(chēng)都一樣的。
robots文件寫(xiě)法參考
–指定蜘蛛
User-agent: * 這里的*代表的所有的搜索引擎種類(lèi),*是一個(gè)通配符。
–禁止寫(xiě)法
Disallow: /admin 這里定義是禁止爬尋admin目錄。
Disallow: /cgi-bin/*.htm 禁止訪問(wèn)/cgi-bin/目錄下所有以“.htm”為后綴URL(包含子目錄)。
Disallow: /*?* 禁止訪問(wèn)網(wǎng)站中所有包含問(wèn)號(hào)(?)的網(wǎng)址。
Disallow:/ab/adc.html 禁止爬取ab文件夾下面的adc.html文件。
–允許寫(xiě)法
Allow: /cgi-bin/ 這里定義是允許爬尋cgi-bin目錄下面的目錄。
Allow: /tmp 這里定義是允許爬尋tmp的整個(gè)目錄。
Allow: .htm$ 僅允許訪問(wèn)以".htm"為后綴的URL。
Allow: .gif$ 允許抓取網(wǎng)頁(yè)和gif格式圖片。
不同的搜索引擎,探測(cè)器(Robot)名稱(chēng)也是不同的。以下是我們常見(jiàn)的爬蟲(chóng)名稱(chēng)。
谷歌:googlebot
百度:baiduspider
MSN:MSNbot
雅虎:Slurp
有道:YoudaoBot
搜搜:Sosospider
搜狗:sogou spider
360:360Spider (haosouSpider)
alexa:ia_archiver