標準的robots.txt是怎么寫的?
網(wǎng)站想要獲得更好的排名,想要把更多的信息展示在搜索引擎上面,就需要搜索引擎蜘蛛的抓取,但是網(wǎng)站上面有一些信息和鏈接(死鏈、無關(guān)信息等)是不希望在搜索引擎展現(xiàn)的,那么當蜘蛛抓取的時候,做什么操作能夠避免呢?
搜索引擎蜘蛛訪問網(wǎng)站是,會首先查看網(wǎng)站根目錄下有沒有一個命名為robots.txt的文件,robots.txt用于指令搜索引擎禁止抓取網(wǎng)站某些內(nèi)容或者指定抓取某些內(nèi)容。
什么是robots文件?
搜索引擎使用spider程序自動訪問互聯(lián)網(wǎng)上的網(wǎng)頁并獲取網(wǎng)頁信息。spider在訪問一個網(wǎng)站時,首先會檢查該網(wǎng)站的根域下是否有一個叫做robots.txt的純文本文件,
這個文件用于指定spider在您網(wǎng)站上的抓取范圍。您可以在您的網(wǎng)站中創(chuàng)建一個robots.txt,在文件中聲明。
該網(wǎng)站中不想被搜索引擎收錄的部分或者指定搜索引擎只收錄特定的部分。請注意,僅當您的網(wǎng)站包含不希望被搜索引擎收錄的內(nèi)容時,才需要使用robots.txt文件。
robots文件適用于所有搜索引擎
robots.txt文件有什么具體作用?
1、屏蔽網(wǎng)站內(nèi)的死鏈接。(網(wǎng)站改版后出現(xiàn)的死鏈、網(wǎng)站被攻擊時來不及刪除的目錄文件和鏈接)
2、屏蔽搜索引擎蜘蛛抓取站點內(nèi)重復內(nèi)容和頁面。
3、阻止搜索引擎索引網(wǎng)站隱私性的內(nèi)容。(例如網(wǎng)站后臺的登陸地址)
4、引導蜘蛛抓取網(wǎng)站地圖
robots.txt文件怎樣寫?
一.User-agent:意思是定義搜索引擎類型
因為搜索引擎有好幾種有:百度蜘蛛:Baiduspider;谷歌蜘蛛:Googlebot;360蜘蛛:360Spider;搜狗蜘蛛sogouspider 。一般沒有特殊要求的話,正確寫法是:User-agent:*意思是允許所有搜索引擎來抓取。這是robots.txt文件中**行的寫法。
二.Disallow:意思是定義禁止抓取的地址
就是禁止蜘蛛抓取的地址,在我們的網(wǎng)站是靜態(tài)或偽靜態(tài)的時候一般網(wǎng)站要禁止蜘蛛抓取動態(tài)路徑(?)、.js、后臺的文件等一些不想讓蜘蛛抓取的文件。它的正確的寫法如下:
Disallow:/禁止蜘蛛抓取整站(一定不能這么寫,這樣會讓所有搜索引擎不來抓取你的網(wǎng)站內(nèi)容)
Disallow:/wp-admin/禁止抓取網(wǎng)站中帶wp-admin的文件夾。
Disallow:/page/禁止抓取網(wǎng)站中帶page的文件夾。
Disallow:/*?*禁止抓取網(wǎng)站中的所有動態(tài)路徑。
Disallow:/.js$禁止抓取網(wǎng)站中的所有帶.js的路徑。
Disallow:/*.jpeg$禁止抓取網(wǎng)站中所有jpeg圖片
三、Allow:意思是定義允許抓取收錄地址
這個就不需要多說了就是允許的意思,在robots文件中不寫Allow意思就是默認的允許。因此大家沒必要寫上。
注意一定不要:千萬不要寫成這樣
User-agent:*
Disallow:/
網(wǎng)站想要讓所有的搜索引擎抓取,除了谷歌!
User-agent:*
Allow:/
User-agent:Googlebot
Disallow:/
一個網(wǎng)站并不是所有的內(nèi)容都需要展現(xiàn)在搜索引擎上面,如正在改版、測試的頁面,各種格式排版的頁面、各種帥選條件的頁面,這些頁面一般都市數(shù)量很多,會過多消耗搜索引擎分配給這個網(wǎng)站的總抓取時間,從而造成一些真正有意義的頁面沒有被抓取和收錄,所以網(wǎng)站日常優(yōu)化中,robots.txt文件是不可或缺的。
免責聲明:凡注明稿件來源的內(nèi)容均為轉(zhuǎn)載稿或由企業(yè)用戶注冊發(fā)布,本網(wǎng)轉(zhuǎn)載出于傳遞更多信息的目的;如轉(zhuǎn)載稿和圖片涉及版權(quán)問題,請作者聯(lián)系我們刪除,同時對于用戶評論等信息,本網(wǎng)并不意味著贊同其觀點或證實其內(nèi)容的真實性。
