
資訊中心
修改網(wǎng)站的ROBOTS.txt是否會(huì)影響蜘蛛爬取
問(wèn)題:修改網(wǎng)站的robots.txt是否會(huì)影響蜘蛛爬取?
回答:通常情況下搜索引擎會(huì)遵守robots文件,如果我們?cè)趓obots.txt文件里面對(duì)某些頁(yè)面做了限制,那么搜索引擎蜘蛛是不會(huì)去抓取的,也就是說(shuō)robots.txt文件會(huì)影響到蜘蛛抓取。對(duì)于robots.txt和蜘蛛爬取,有以下兩個(gè)方面的問(wèn)題大家需要注意。
很多朋友提到明明自己的網(wǎng)站,在robots.txt文件里限制了所有搜索引擎蜘蛛抓取,但是百度還是收錄了首頁(yè)。這種情況是正常的,但是大家要注意的是,雖然蜘蛛抓取了頁(yè)面,也收錄了,但是百度快照里面是沒(méi)有內(nèi)容的,如果我們?nèi)c(diǎn)擊百度快照,會(huì)跳轉(zhuǎn)至百度搜索資源平臺(tái)。也就是說(shuō),雖然蜘蛛抓取了,但是并沒(méi)有保存頁(yè)面文件。
我們?cè)谡介_(kāi)放蜘蛛抓取之前,通常會(huì)設(shè)置robots.txt文件,限制所有搜索引擎蜘蛛抓取。但是有朋友反映,在放開(kāi)了robots.txt文件限制以后,蜘蛛還是不過(guò)來(lái)抓取,這其實(shí)就是搜索引擎蜘蛛對(duì)robots.txt文件的反應(yīng)需要時(shí)間,這個(gè)時(shí)間通常是一個(gè)星期以內(nèi)。
我們?cè)倩氐絩obots.txt和蜘蛛爬取上面來(lái),總體上搜索引擎蜘蛛會(huì)嚴(yán)格遵守robots.txt文件協(xié)議,對(duì)于robots.txt文件限制的頁(yè)面,蜘蛛不糊去抓取。所有對(duì)于那些沒(méi)有搜索需求的頁(yè)面,我們可以在robots.txt文件里面進(jìn)行設(shè)置,這樣就可以集中抓取頻次和防止權(quán)重分散。當(dāng)然,我們可以把robots.txt文件和nofollow標(biāo)簽結(jié)合起來(lái)使用。
另外大家要注意蜘蛛對(duì)robots.txt文件的反映時(shí)間,不要因?yàn)閹滋熘┲霙](méi)有來(lái)抓取,就懷疑是網(wǎng)站其他地方出現(xiàn)了問(wèn)題,應(yīng)該耐心等待。
關(guān)于robots.txt和蜘蛛爬取的問(wèn)題,筆者在本文簡(jiǎn)要的給大家做了說(shuō)明。總之來(lái)說(shuō),修改網(wǎng)站的robots.txt會(huì)影響蜘蛛爬取,至于是減少抓取量還是增加抓取量,這需要具體分析對(duì)robots.txt做了怎樣的修改。另外robots.txt里面還可以設(shè)置網(wǎng)站地圖,這對(duì)于網(wǎng)站頁(yè)面收錄有幫助。