超碰中文字幕在线_女人18毛片水真多18精品_色综合久久六月婷婷中文字幕_免费的av网站_国产视频久久久_精品久久久久久久久久久久久久久 _欧美最猛性xxxxx亚洲精品_欧美人妻一区二区_欧美美女激情18p_一区二区三区视频在线播放_欧美a视频在线观看_一区免费观看视频

或者

怎樣寫robots文件_robots文件寫法技巧_robot.txt的例子

作者:月光邊境 瀏覽:95 發(fā)布時間:2017-08-05
分享 評論 0

資料一

  1.robots.txt文件是什么

  robots.txt是一個純文本文件,是搜索引擎中訪問網(wǎng)站的時候要查看的第一個文件。robots.txt文件告訴蜘蛛程序在服務器上什么文件是可以被查看的。每個站點最好建立一個robots.txt文件,對seo更友好。每當搜索蜘蛛來尋找并不存在的robots.txt文件時,服務器將在日志中記錄一條404錯誤,所以你應該在網(wǎng)站中添加一個robots.txt(即使這個robots.txt文件只是一個空文件)。

  2.robots.txt的寫法(語法)

  1)User-agent: 該項的值用于描述搜索引擎蜘蛛的名字。如果該項的值設為*,則該協(xié)議對任何機器人均有效。

  2)Disallow: 該項的值用于描述不希望被訪問到的一個URL,一個目錄或者整個網(wǎng)站。以Disallow 開頭的URL 均不會被搜索引擎蜘蛛訪問到。任何一條Disallow 記錄為空,說明該網(wǎng)站的所有部分都允許被訪問。

  3)用法舉例:

  網(wǎng)站目錄下所有文件均能被所有搜索引擎蜘蛛訪問

  User-agent: *

  Disallow:

  禁止所有搜索引擎蜘蛛訪問網(wǎng)站的任何部分

  User-agent: *

  Disallow: /

  禁止所有的搜索引擎蜘蛛訪問網(wǎng)站的幾個目錄

  User-agent: *

  Disallow: /a/

  Disallow: /b/

  禁止搜索引擎蜘蛛訪問目錄a和目錄b

  只允許某個搜索引擎蜘蛛訪問

  User-agent: Googlebot

  Disallow:

  您應該限制網(wǎng)站某些文件不被蜘蛛抓取。

  一般網(wǎng)站中不需要蜘蛛抓取的文件有:后臺管理文件、程序腳本、附件、數(shù)據(jù)庫文件、編碼文件、樣式表文件、模板文件、導航圖片和背景圖片等等。

  3.robots.txt文件帶來的風險以及解決

  robots.txt 同時也帶來了一定的風險:其也給攻擊者指明了網(wǎng)站的目錄結構和私密數(shù)據(jù)所在的位置。設置訪問權限,對您的隱私內(nèi)容實施密碼保護,這樣,攻擊者便無從進入。

  4.常見搜索引擎蜘蛛Robots名字

  Baiduspider :http://www.baidu.com

  Scooter :http://www.altavista.com

  ia_archiver: http://www.alexa.com

  Googlebot :http://www.google.com

  Inktomi Slurp :http://www.yahoo.com

  FAST-WebCrawler: http://www.alltheweb.com

  Slurp :http://www.inktomi.com

  MSNBOT :http://search.msn.com

  5.注意事項:

  1)robots.txt必須放置在站點的根目錄下,而且文件名必須全部小寫。

  2)不要在robots.txt文件中設置所有的文件都可以被搜索蜘蛛抓取。

  3)為安全考慮,建議很重要的文件夾不要寫在robots.txt文件中,或你只建一個空白robots.txt文件,在不要訪問的目錄中加入其它的技術(目前還在探索中……)。

  seo會聚網(wǎng)robot.txt文件實例:www.seohj.com/robots.txt。

  我們也可以通過Robots META標簽來針對一個個具體的頁面。關于Robots META標簽的詳細介紹在Robots META標簽用法。

  1.語法:

  <meta name="robots"content="搜索方式">

  2.說明:

  在該語法中,搜索方式的值和其對應的含義如下:

  all:頁面將被檢索,且頁面上的鏈接可以被查詢;

  none:頁面不能被檢索,且頁面上的鏈接不可以被查詢;

  index:頁面將被檢索,但不設置鏈接是否可以被查詢;

  follow:頁面上的鏈接可以被查詢;

  noindex:頁面不能被檢索,但頁面上的鏈接可以被查詢;

  nofollow:頁面能被檢索,但頁面上的鏈接卻不可以被查詢。

  3.實例:

  該實例設定網(wǎng)頁能被檢索,但頁面上的鏈接卻不可以被查詢,代碼如下:

  <html>

  <head>

  <title>限制搜索方式</title>

  <meta name="robots"content="index">

  </head>

  <body></body>

  </html>

  資料二

  一.什么是robots.txt文件?

  搜索引擎通過一種程序robot(又稱spider),自動訪問互聯(lián)網(wǎng)上的網(wǎng)頁并獲取網(wǎng)頁信息。

  您可以在您的網(wǎng)站中創(chuàng)建一個純文本文件robots.txt,在這個文件中聲明該網(wǎng)站中不想被robot訪問的部分,這樣,該網(wǎng)站的部分或全部內(nèi)容就可以不被搜索引擎收錄了,或者指定搜索引擎只收錄指定的內(nèi)容。

  二. robots.txt文件放在哪里?

  robots.txt文件應該放在網(wǎng)站根目錄下。舉例來說,當robots訪問一個網(wǎng)站(比如http://www.abc.com)時,首先會檢查該網(wǎng)站中是否存在http://www.abc.com/robots.txt這個文件,如果機器人找到這個文件,它就會根據(jù)這個文件的內(nèi)容,來確定它訪問權限的范圍。

  網(wǎng)站 URL 相應的 robots.txt的 URL

  http://www.w3.org/ http://www.w3.org/robots.txt

  http://www.w3.org:80/ http://www.w3.org:80/robots.txt

  http://www.w3.org:1234/ http://www.w3.org:1234/robots.txt

  http://w3.org/??http://w3.org/robots.txt

  三. robots.txt文件的格式

  "robots.txt"文件包含一條或更多的記錄,這些記錄通過空行分開(以CR,CR/NL, or NL作為結束符),每一條記錄的格式如下所示:

  "<field>:<optionalspace><value><optionalspace>"。

  在該文件中可以使用#進行注解,具體使用方法和UNIX中的慣例一樣。該文件中的記錄通常以一行或多行User-agent開始,后面加上若干Disallow行,詳細情況如下:

  User-agent:

  該項的值用于描述搜索引擎robot的名字,在"robots.txt"文件中,如果有多條User-agent記錄說明有多個robot會受到該協(xié)議的限制,對該文件來說,至少要有一條User-agent記錄。如果該項的值設為*,則該協(xié)議對任何機器人均有效,在"robots.txt"文件中,"User-agent:*"這樣的記錄只能有一條。

  Disallow :

  該項的值用于描述不希望被訪問到的一個URL,這個URL可以是一條完整的路徑,也可以是部分的,任何以Disallow 開頭的URL均不會被robot訪問到。例如"Disallow: /help"對/help.html 和/help/index.html都不允許搜索引擎訪問,而"Disallow: /help/"則允許robot訪問/help.html,而不能訪問/help/index.html。

  任何一條Disallow記錄為空,說明該網(wǎng)站的所有部分都允許被訪問,在"/robots.txt"文件中,至少要有一條Disallow記錄。如果"/robots.txt"是一個空文件,則對于所有的搜索引擎robot,該網(wǎng)站都是開放的。

  四. robots.txt文件用法舉例

  例1. 禁止所有搜索引擎訪問網(wǎng)站的任何部分

  下載該robots.txt文件

  User-agent: *

  Disallow: /

  例2. 允許所有的robot訪問

  (或者也可以建一個空文件 "/robots.txt" file)

  ??

  User-agent: *

  Disallow:

  例3. 禁止某個搜索引擎的訪問

  User-agent: BadBot

  Disallow: /

  例4. 允許某個搜索引擎的訪問

  User-agent: baiduspider

  Disallow:

  User-agent: *

  Disallow: /

  例5. 一個簡單例子

  在這個例子中,該網(wǎng)站有三個目錄對搜索引擎的訪問做了限制,即搜索引擎不會訪問這三個目錄。

  需要注意的是對每一個目錄必須分開聲明,而不要寫成 "Disallow: /cgi-bin/ /tmp/"。

  User-agent:后的* 具有特殊的含義,代表"any robot",所以在該文件中不能有"Disallow: /tmp/*" or "Disallow: *.gif"這樣的記錄出現(xiàn).

  User-agent: *

  Disallow: /cgi-bin/

  Disallow: /tmp/

  Disallow: /~joe/

  五. robots.txt文件參考資料

  robots.txt文件的更具體設置,請參看以下鏈接:

  · Web Server Administrator''s Guide to the Robots Exclusion Protocol

  · HTML Author''s Guide to the Robots Exclusion Protocol

  · The original 1994 protocol description, as currently deployed

  · The revised Internet-Draft specification, which is not yet completed or implemented

  在你的主頁中為Web Robot設計路標

  Internet越來越酷,WWW的知名度如日中天。在Internet上發(fā)布公司信息、進行電子商務已經(jīng)從時髦演化成時尚。作為一個Web Master,你可能對HTML、java script、Java、 ActiveX了如指掌,但你是否知道什么是Web Robot?你是否知道Web Robot和你所設 計的主頁有什么關系?

  Internet上的流浪漢--- Web Robot

  有時你會莫名其妙地發(fā)現(xiàn)你的主頁的內(nèi)容在一個搜索引擎中被索引,即使你從未與他 們有過任何聯(lián)系。其實這正是Web Robot的功勞。Web Robot其實是一些程序,它可以 穿越大量Internet網(wǎng)址的超文本結構,遞歸地檢索網(wǎng)絡站點所有的內(nèi)容。這些程序有時被叫 “蜘蛛(Spider)” , “網(wǎng)上流浪漢(Web Wanderer)”,“網(wǎng)絡蠕蟲(web worms)”或Web crawler。一些Internet網(wǎng)上知名的搜索引擎站點(Search Engines)都有專門的Web Robot程序來完成信息的采集,例如Lycos,Webcrawler,Altavista等,以及中文搜索引擎站點例如北極星,網(wǎng)易,GOYOYO等。

  Web Robot就象一個不速之客,不管你是否在意,它都會忠于自己主人的職責,任勞任怨、不知疲倦地奔波于萬維網(wǎng)的空間,當然也會光臨你的主頁,檢索主頁內(nèi)容并生成它所需要的記錄格式。或許有的主頁內(nèi)容你樂于世人皆知,但有的內(nèi)容你卻不愿被洞察、索引。難道你就只能任其“橫行”于自己主頁空間,能否指揮和控制Web Robot的行蹤呢?答案當然是肯定的。只要你閱讀了本篇的下文,就可以象一個交通 警察一樣,布置下一個個路標,告訴Web Robot應該怎么去檢索你的主頁,哪些可以檢索,哪些不可以訪問。

  其實Web Robot能聽懂你的話

  不要以為Web Robot是毫無組織,毫無管束地亂跑。很多Web Robot軟件給網(wǎng)絡站點的 管理員或網(wǎng)頁內(nèi)容制作者提供了兩種方法來限制Web Robot的行蹤:

  1、Robots Exclusion Protocol 協(xié)議

  網(wǎng)絡站點的管理員可以在站點上建立一個專門格式的文件,來指出站點上的哪一部分 可以被robot訪問, 這個文件放在站點的根目錄下,即robots.txt." target="_blank">http://.../robots.txt.

  2、Robots META tag

  一個網(wǎng)頁作者可以使用專門的HTML META tag ,來指出某一個網(wǎng)頁是否可以被索 引、分析或鏈接。

  這些方法適合于大多數(shù)的Web Robot,至于是否在軟件中實施了這些方法,還依賴于 Robot的開發(fā)者,并非可以保證對任何Robot都靈驗。如果你迫切需要保護自己內(nèi)容,則應考慮采用諸如增加密碼等其他保護方法。

  使用Robots Exclusion Protocol協(xié)議

  當Robot訪問一個 Web 站點時,比如http://www.sti.net.cn/,它先去檢查文件robots.txt" target="_blank">http://www.sti.net.cn/robots.txt。如果這個文件存在,它便會按照這樣的記錄格式去分析:

  User-agent: *

  Disallow: /cgi-bin/

  Disallow: /tmp/

  Disallow: /~joe/

  以確定它是否應該檢索站點的文件。這些記錄是專門給Web Robot看的,一般的瀏覽者大概永遠不會看到這個文件,所以千萬不要異想天開地在里面加入形似<img src=*> 類的HTML語句或是“How do you do? where are you from?”之類假情假意的問候語。

  在一個站點上只能有一個 "/robots.txt" 文件,而且文件名的每個字母要求全部是小 寫。在Robot的記錄格式中每一個單獨的"Disallow"行表示你不希望Robot訪問的URL, 每個URL必須單獨占一行,不能出現(xiàn) "Disallow: /cgi-bin/ /tmp/"這樣的病句。同時在一個記錄中不能出現(xiàn)空行,這是因為空行是多個記錄分割的標志。

  User-agent行指出的是Robot或其他代理的名稱。在User-agent行,''*'' 表示一個特殊的含義---所有的robot。

  下面是幾個robot.txt的例子:

  在整個服務器上拒絕所有的robots:

  User-agent: *

  Disallow: /

  允許所有的robots訪問整個站點:

  User-agent: *

  Disallow:

  或者產(chǎn)生一個空的 "/robots.txt" 文件。

  服務器的部分內(nèi)容允許所有的robot訪問

  User-agent: *

  Disallow: /cgi-bin/

  Disallow: /tmp/

  Disallow: /private/

  拒絕某一個專門的robot:

  User-agent: BadBot

  Disallow: /

  只允許某一個robot光顧:

  User-agent: WebCrawler

  Disallow:

  User-agent: *

  Disallow: /

  最后我們給出 http://www.w3.org/站點上的robots.txt:

  # For use by search.w3.org

  User-agent: W3Crobot/1

  Disallow:

  User-agent: *

  Disallow: /Member/ # This is restricted to W3C Members only

  Disallow: /member/ # This is restricted to W3C Members only

  Disallow: /team/ # This is restricted to W3C Team only

  Disallow: /TandS/Member # This is restricted to W3C Members only

  Disallow: /TandS/Team # This is restricted to W3C Team only

  Disallow: /Project

  Disallow: /Systems

  Disallow: /Web

  Disallow: /Team

  使用Robots META tag方式

  Robots META tag 允許HTML網(wǎng)頁作者指出某一頁是否可以被索引,或是否可以用來查找更多的鏈接文件。目前只有部分robot實施了這一功能。

  Robots META tag的格式為:

  <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

  象其他的META tag一樣,它應該放在HTML文件的HEAD區(qū):

  <html>

  <head>

  <meta name="robots" content="noindex,nofollow">

  <meta name="description" content="This page ....">

  <title>...</title>

  </head>

  <body>

  ...

  Robots META tag指令使用逗號隔開,可以使用的指令包括 [NO]INDEX 和[NO]FOLLOW。INDEX 指令指出一個索引性robot是否可以對本頁進行索引;FOLLOW 指 令指出robot是否可以跟蹤本頁的鏈接。缺省的情況是INDEX和FOLLOW。例如:

  <meta name="robots" content="index,follow">

  <meta name="robots" content="noindex,follow">

  <meta name="robots" content="index,nofollow">

  <meta name="robots" content="noindex,nofollow">

  一個好的Web 站點管理員應該將robot的管理考慮在內(nèi),使robot為自己的主頁服務, 同時又不損害自己網(wǎng)頁的安全

  資料三

  什么是robots.txt?

  robots.txt

  robots.txt是搜索引擎中訪問網(wǎng)站的時候要查看的第一個文件。robots.txt文件告訴蜘蛛程序在服務器上什么文件是可以被查看的。

  當一個搜索蜘蛛訪問一個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果存在,搜索機器人就會按照該文件中的內(nèi)容來確定訪問的范圍;如果該文件不存在,所有的搜索蜘蛛將能夠訪問網(wǎng)站上所有沒有被口令保護的頁面。百度官方建議,僅當您的網(wǎng)站包含不希望被搜索引擎收錄的內(nèi)容時,才需要使用robots.txt文件。如果您希望搜索引擎收錄網(wǎng)站上所有內(nèi)容,請勿建立robots.txt文件。

  robots.txt必須放置在一個站點的根目錄下,而且文件名必須全部小寫。

  語法:最簡單的 robots.txt 文件使用兩條規(guī)則:

  ? User-Agent: 適用下列規(guī)則的漫游器

  ? Disallow: 要攔截的網(wǎng)頁

  robots.txt在SEO中作用

  在進行網(wǎng)站優(yōu)化的時候,經(jīng)常會使用robots文件把一些內(nèi)容不想讓蜘蛛抓取,以前寫過一篇網(wǎng)站優(yōu)化robots.txt文件的運用, 現(xiàn)在寫這編文章在補充一點點知識!什么是robots.txt文件

  搜索引擎通過一種爬蟲spider程序(又稱搜索蜘蛛、robot、搜索機器人等),自動搜集互聯(lián)網(wǎng)上的網(wǎng)頁并獲取相關信息。

  鑒于網(wǎng)絡安全與隱私的考慮,搜索引擎遵循robots.txt協(xié)議。通過根目錄中創(chuàng)建的純文本文件robots.txt,網(wǎng)站可以聲明不想被robots訪問的部分。每個網(wǎng)站都可以自主控制網(wǎng)站是否愿意被搜索引擎收錄,或者指定搜索引擎只收錄指定的內(nèi)容。當一個搜索引擎的爬蟲訪問一個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果該文件不存在,那么爬蟲就沿著鏈接抓取,如果存在,爬蟲就會按照該文件中的內(nèi)容來確定訪問的范圍。

  robots.txt必須放置在一個站點的根目錄下,而且文件名必須全部小寫。robots.txt文件的格式

  User-agent: 定義搜索引擎的類型

  Disallow: 定義禁止搜索引擎收錄的地址

  Allow: 定義允許搜索引擎收錄的地址

  我們常用的搜索引擎類型有: (User-agent區(qū)分大小寫)

  google蜘蛛:Googlebot

  百度蜘蛛:Baiduspider

  yahoo蜘蛛:Yahoo!slurp

  alexa蜘蛛:ia_archiver

  bing蜘蛛:MSNbot

  altavista蜘蛛:scooter

  lycos蜘蛛:lycos_spider_(t-rex)

  alltheweb蜘蛛:fast-webcrawler

  inktomi蜘蛛: slurp

  Soso蜘蛛:Sosospider

  Google Adsense蜘蛛:Mediapartners-Google

  有道蜘蛛:YoudaoBot

  robots.txt文件的寫法

  User-agent: * 這里的*代表的所有的搜索引擎種類,*是一個通配符

  Disallow: /admin/ 這里定義是禁止爬尋admin目錄下面的目錄

  Disallow: /require/ 這里定義是禁止爬尋require目錄下面的目錄

  Disallow: /ABC/ 這里定義是禁止爬尋ABC目錄下面的目錄

  Disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下的所有以".htm"為后綴的URL(包含子目錄)。

  Disallow: /*?* 禁止訪問網(wǎng)站中所有的動態(tài)頁面

  Disallow: /jpg$ 禁止抓取網(wǎng)頁所有的.jpg格式的圖片

  Disallow:/ab/adc.html 禁止爬去ab文件夾下面的adc.html文件。

  Allow: /cgi-bin/ 這里定義是允許爬尋cgi-bin目錄下面的目錄

  Allow: /tmp 這里定義是允許爬尋tmp的整個目錄

  Allow: .htm$ 僅允許訪問以".htm"為后綴的URL。

  Allow: .gif$ 允許抓取網(wǎng)頁和gif格式圖片

  robots.txt文件用法舉例

  例1. 禁止所有搜索引擎訪問網(wǎng)站的任何部分

  User-agent: *

  Disallow: /

  實例分析:淘寶網(wǎng)的 Robots.txt文件

  User-agent: Baiduspider

  Disallow: /

  User-agent: baiduspider

  Disallow: /

  很顯然淘寶不允許百度的機器人訪問其網(wǎng)站下其所有的目錄。

  例2. 允許所有的robot訪問 (或者也可以建一個空文件 “/robots.txt” file)

  User-agent: *

  Allow:

  例3. 禁止某個搜索引擎的訪問

  User-agent: BadBot

  Disallow: /

  例4. 允許某個搜索引擎的訪問

  User-agent: Baiduspider

  allow:/

  例5.一個簡單例子

  在這個例子中,該網(wǎng)站有三個目錄對搜索引擎的訪問做了限制,即搜索引擎不會訪問這三個目錄。

  需要注意的是對每一個目錄必須分開聲明,而不要寫成 “Disallow: /cgi-bin/ /tmp/”。

  User-agent:后的*具有特殊的含義,代表“any robot”,所以在該文件中不能有“Disallow: /tmp/*” or “Disallow:*.gif”這樣的記錄出現(xiàn)。

  User-agent: *

  Disallow: /cgi-bin/

  Disallow: /tmp/

  Disallow: /~joe/

  Robot特殊參數(shù):

  允許 Googlebot:

  如果您要攔截除 Googlebot 以外的所有漫游器不能訪問您的網(wǎng)頁,可以使用下列語法:

  User-agent:

  Disallow:/

  User-agent:Googlebot

  Disallow:

  Googlebot 跟隨指向它自己的行,而不是指向所有漫游器的行。

  “Allow”擴展名:

  Googlebot 可識別稱為“Allow”的 robots.txt 標準擴展名。其他搜索引擎的漫游器可能無法識別此擴展名,因此請使用您感興趣的其他搜索引擎進行查找。“Allow”行的作用原理完全與“Disallow”行一樣。只需列出您要允許的目錄或頁面即可。

  您也可以同時使用“Disallow”和“Allow”。例如,要攔截子目錄中某個頁面之外的其他所有頁面,可以使用下列條目:

  User-agent:Googlebot

  Disallow:/folder1/

  Allow:/folder1/myfile.html

  這些條目將攔截 folder1 目錄內(nèi)除 myfile.html 之外的所有頁面。

  如果您要攔截 Googlebot 并允許 Google 的另一個漫游器(如 Googlebot-Mobile),可使用”Allow”規(guī)則允許該漫游器的訪問。例如:

  User-agent:Googlebot

  Disallow:/

  User-agent:Googlebot-Mobile

  Allow:

  使用 * 號匹配字符序列:

  您可使用星號 (*) 來匹配字符序列。例如,要攔截對所有以 private 開頭的子目錄的訪問,可使用下列條目:

  User-Agent:Googlebot

  Disallow:/private*/

  要攔截對所有包含問號 (?) 的網(wǎng)址的訪問,可使用下列條目:

  User-agent:*

  Disallow:/*?*

  使用 $ 匹配網(wǎng)址的結束字符

  您可使用 $ 字符指定與網(wǎng)址的結束字符進行匹配。例如,要攔截以 .asp 結尾的網(wǎng)址,可使用下列條目:

  User-agent:Googlebot

  Disallow:/*.asp$

  您可將此模式匹配與 Allow 指令配合使用。例如,如果 ? 表示一個會話 ID,您可排除所有包含該 ID 的網(wǎng)址,確保 Googlebot 不會抓取重復的網(wǎng)頁。但是,以 ? 結尾的網(wǎng)址可能是您要包含的網(wǎng)頁版本。在此情況下,可對 robots.txt 文件進行如下設置:

  User-agent:*

  Allow:/*?$

  Disallow:/*?

  Disallow:/ *?

  一行將攔截包含 ? 的網(wǎng)址(具體而言,它將攔截所有以您的域名開頭、后接任意字符串,然后是問號 (?),而后又是任意字符串的網(wǎng)址)。

  Allow: /*?$ 一行將允許包含任何以 ? 結尾的網(wǎng)址(具體而言,它將允許包含所有以您的域名開頭、后接任意字符串,然后是問號 (?),問號之后沒有任何字符的網(wǎng)址)。

  Robots Meta標簽

  Robots.txt文件主要是限制整個站點或者目錄的搜索引擎訪問情況,而Robots Meta標簽則主要是針對一個個具體的頁面。和其他的META標簽(如使用的語言、頁面的描述、關鍵詞等)一樣,Robots Meta標簽也是放在頁面中,專門用來告訴搜索引擎ROBOTS如何抓取該頁的內(nèi)容。

  Robots Meta標簽中沒有大小寫之分,name=”Robots”表示所有的搜索引擎,可以針對某個具體搜索引擎寫為name=”BaiduSpider”。content部分有四個指令選項:index、noindex、follow、nofollow,指令間以“,”分隔。

  index指令告訴搜索機器人抓取該頁面;

  follow指令表示搜索機器人可以沿著該頁面上的鏈接繼續(xù)抓取下去;

  Robots Meta標簽的缺省值是index和follow,只有inktomi除外,對于它,缺省值是index、nofollow。

  需要注意的是:

  上述的robots.txt和Robots Meta標簽限制搜索引擎機器人(ROBOTS)抓取站點內(nèi)容的辦法只是一種規(guī)則,需要搜索引擎機器人的配合才行,并不是每個ROBOTS都遵守的。

  目前看來,絕大多數(shù)的搜索引擎機器人都遵守robots.txt的規(guī)則,而對于RobotsMETA標簽,目前支持的并不多,但是正在逐漸增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE還增加了一個指令“archive”,可以限制GOOGLE是否保留網(wǎng)頁快照。

  編輯本段robots.txt使用誤區(qū)

  特別提示:robots里面內(nèi)容的大小寫不可更改,Disallow后面的冒號必須為英文狀態(tài)的。

  誤區(qū)一

  網(wǎng)站上所有的文件都需要被蜘蛛抓取,那就沒必要添加robots.txt文件了。反正如果該文件不存在,所有的搜索蜘蛛將默認能夠訪問網(wǎng)站上所有沒有被口令保護的頁面。

  誤區(qū)二

  在robots.txt文件中設置所有的文件都可以被搜索蜘蛛抓取,這樣可以增加網(wǎng)站的收錄率。

  網(wǎng)站中的腳本程序、樣式表等文件即使被蜘蛛收錄,也不會增加網(wǎng)站的收錄率,還只會占用服務器存儲空間。因此必須在robots.txt文件里設置不要讓搜索蜘蛛索引腳本程序、樣式表等文件,具體哪些文件需要排除,在robots.txt使用技巧一文中有詳細介紹。

  誤區(qū)三

  搜索蜘蛛抓取網(wǎng)頁太浪費服務器資源,在robots.txt文件中設置所有的搜索蜘蛛都不能抓取全部的網(wǎng)頁。

  如果這樣的話,會導致整個網(wǎng)站不能被搜索引擎收錄。

  編輯本段robots.txt使用技巧

  文件

  1. 每當用戶試圖訪問某個不存在的URL時,服務器都會在日志中記錄404錯誤(無法找到文件)。每當搜索蜘蛛來尋找并不存在的robots.txt文件時,服務器也將在日志中記錄一條404錯誤,所以你應該在網(wǎng)站中添加一個robots.txt。

  2. 網(wǎng)站管理員必須使蜘蛛程序遠離某些服務器上的目錄——保證服務器性能。比如:大多數(shù)網(wǎng)站服務器都有程序儲存在“cgi-bin”目錄下,因此在robots.txt文件中加入“Disallow: /cgi-bin/”是個好主意,這樣能夠避免將所有程序文件被蜘蛛索引,可以節(jié)省服務器資源。一般網(wǎng)站中不需要蜘蛛抓取的文件有:后臺管理文件、程序腳本、附件、數(shù)據(jù)庫文件、編碼文件、樣式表文件、模板文件、導航圖片和背景圖片等等。

  下面是VeryCMS里的robots.txt文件:

  User-agent: *

  Disallow: /admin/ 后臺管理文件

  Disallow: /require/ 程序文件

  Disallow: /attachment/ 附件

  Disallow: /images/ 圖片

  Disallow: /data/ 數(shù)據(jù)庫文件

  Disallow: /template/ 模板文件

  Disallow: /css/ 樣式表文件

  Disallow: /lang/ 編碼文件

  Disallow: /script/ 腳本文件

  3. 如果你的網(wǎng)站是動態(tài)網(wǎng)頁,并且你為這些動態(tài)網(wǎng)頁創(chuàng)建了靜態(tài)副本,以供搜索蜘蛛更容易抓取。那么你需要在robots.txt文件里設置避免動態(tài)網(wǎng)頁被蜘蛛索引,以保證這些網(wǎng)頁不會被視為含重復內(nèi)容。

  4. robots.txt文件里還可以直接包括在sitemap文件的鏈接。就像這樣:

  Sitemap: http://www.***.com/sitemap.xml

  (此處請?zhí)顚慩ML地圖的絕對路徑,即完整URL,如果按習慣填寫Sitemap: /sitemap.xml,提交后會提示:檢測到無效的 Sitemap 網(wǎng)址;語法錯誤。

  XML地圖必須在網(wǎng)站根目錄下才有效。)

  目前對此表示支持的搜索引擎公司有Google, Yahoo, Ask and MSN。而中文搜索引擎公司,顯然不在這個圈子內(nèi)。這樣做的好處是,站長不用到每個搜索引擎的站長工具或者相似的站長部分,去提交自己的sitemap文件,搜索引擎的蜘蛛自己就會抓取robots.txt文件,讀取其中的sitemap路徑,接著抓取其中相鏈接的網(wǎng)頁。

  5. 合理使用robots.txt文件還能避免訪問時出錯。比如,不能讓搜索者直接進入購物車頁面。因為沒有理由使購物車被收錄,所以你可以在robots.txt文件里設置來阻止搜索者直接進入購物車頁面。

  robots.txt文件的格式

  "robots.txt"文件包含一條或更多的記錄,這些記錄通過空行分開(以CR,CR/NL, or NL作為結束符),每一條記錄的格式如下所示:

  "<field>:<optionalspace><value><optionalspace>"。

  在該文件中可以使用#進行注解,具體使用方法和UNIX中的慣例一樣。該文件中的記錄通常以一行或多行User-agent開始,后面加上若干Disallow和Allow行,詳細情況如下:

  User-agent:

  該項的值用于描述搜索引擎robot的名字。在"robots.txt"文件中,如果有多條User-agent記錄說明有多個robot會受到"robots.txt"的限制,對該文件來說,至少要有一條User-agent記錄。如果該項的值設為*,則對任何robot均有效,在"robots.txt"文件中,"User-agent:*"這樣的記錄只能有一條。如果在"robots.txt"文件中,加入"User-agent:SomeBot"和若干Disallow、Allow行,那么名為"SomeBot"只受到"User-agent:SomeBot"后面的Disallow和Allow行的限制。

  Disallow:

  該項的值用于描述不希望被訪問的一組URL,這個值可以是一條完整的路徑,也可以是路徑的非空前綴,以Disallow項的值開頭的URL不會被robot訪問。例如"Disallow:/help"禁止robot訪問/help.html、/helpabc.html、/help/index.html,而"Disallow:/help/"則允許robot訪問/help.html、/helpabc.html,不能訪問/help/index.html。"Disallow:"說明允許robot訪問該網(wǎng)站的所有url,在"/robots.txt"文件中,至少要有一條Disallow記錄。如果"/robots.txt"不存在或者為空文件,則對于所有的搜索引擎robot,該網(wǎng)站都是開放的。

  Allow:

  該項的值用于描述希望被訪問的一組URL,與Disallow項相似,這個值可以是一條完整的路徑,也可以是路徑的前綴,以Allow項的值開頭的URL是允許robot訪問的。例如"Allow:/hibaidu"允許robot訪問/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一個網(wǎng)站的所有URL默認是Allow的,所以Allow通常與Disallow搭配使用,實現(xiàn)允許訪問一部分網(wǎng)頁同時禁止訪問其它所有URL的功能。

  需要特別注意的是Disallow與Allow行的順序是有意義的,robot會根據(jù)第一個匹配成功的Allow或Disallow行確定是否訪問某個URL。

  使用"*"和"$":

  Baiduspider支持使用通配符"*"和"$"來模糊匹配url。

  "$" 匹配行結束符。

  "*" 匹配0或多個任意字符。

  robots.txt文件字符編碼

  robots.txt使用什么字符編碼,并沒有相關規(guī)定,都是各搜索引擎自已定義的。雖然google和其它搜索引擎建議大家使用 utf-8 字符編碼格式的robots.txt,但幾乎所有的搜索引擎都支持 ANSI 編碼格式,而google自已對 utf-8 編碼格式的robots.txt,會出現(xiàn)首字亂碼。所以為了達到最大的兼容性,建議大家使用 ANSI 格式編碼,或者使用 utf-8 編碼格式,但需要空出首行。

  還有一個建議就是robots.txt中最好不要出現(xiàn)中文,即使是注釋也要使用英文。

  robots.txt文件用法舉例

  例1.禁止所有搜索引擎訪問網(wǎng)站的任何部分 User-agent: *

  Disallow: /

  例2.允許所有的robot訪問

  (或者也可以建一個空文件 "/robots.txt") 第1種寫法

  User-agent: *

  Allow: /

  第2種寫法

  User-agent: *

  Allow:

  第3種寫法

  User-agent: *

  Disallow:

  例3. 僅禁止Baiduspider訪問您的網(wǎng)站 User-agent: Baiduspider

  Disallow: /

  例4. 僅允許Baiduspider訪問您的網(wǎng)站 User-agent: Baiduspider

  Allow: /

  例5. 禁止spider訪問特定目錄

  在這個例子中,該網(wǎng)站有三個目錄對搜索引擎的訪問做了限制,即robot不會訪問這三個目錄。需要注意的是對每一個目錄必須分開聲明,而不能寫成 "Disallow: /cgi-bin/ /tmp/"。 User-agent: *

  Disallow: /cgi-bin/

  Disallow: /tmp/

  Disallow: /~joe/

  例6. 允許訪問特定目錄中的部分url User-agent: *

  Allow: /cgi-bin/see

  Allow: /tmp/hi

  Allow: /~joe/look

  例7. 使用"*"限制訪問url

  禁止訪問/cgi-bin/目錄下的所有以".htm"為后綴的URL(包含子目錄)。

  User-agent: *

  Disallow: /cgi-bin/*.htm

  例8. 使用"$"限制訪問url

  僅允許訪問以".htm"為后綴的URL。 User-agent: *

  Allow: / .htm$

  例9. 禁止訪問網(wǎng)站中所有的動態(tài)頁面 User-agent: *

  Disallow: /*?*

  例10. 禁止Baiduspider抓取網(wǎng)站上所有圖片

  僅允許抓取網(wǎng)頁,禁止抓取任何圖片。 User-agent: Baiduspider

  Disallow: /*.jpg$

  Disallow: /* .jpeg$

  Disallow: /* .gif$

  Disallow: /* .png$

  Disallow: /*.bmp$

  例11. 僅允許Baiduspider抓取網(wǎng)頁和。gif格式圖片

  允許抓取網(wǎng)頁和gif格式圖片,不允許抓取其他格式圖片 User-agent: Baiduspider

  Allow: .gif$

  Disallow: /.jpg$

  Disallow: / .jpeg$

  Disallow: / .png$

  Disallow: /.bmp$

  例12. 僅禁止Baiduspider抓取。jpg格式圖片 User-agent: /Baiduspider

  Disallow: /.jpg$

  百度各個產(chǎn)品使用不同的user-agent:

  無線搜索 Baiduspider-mobile

  圖片搜索 Baiduspider-image

  視頻搜索 Baiduspider-video

  新聞搜索 Baiduspider-news

  百度搜藏 Baiduspider-favo

  百度聯(lián)盟 Baiduspider-cpro

  商務搜索 Baiduspider-ads

  網(wǎng)頁以及其他搜索 Baiduspider


狠狠色伊人亚洲综合成人| 欧美另类网站| 欧美久久精品一级黑人c片| 北条麻妃一区二区三区中文字幕 | 亚洲第一精品网站| www.欧美国产| 国产精品一区三区| 国产精品久久久久久久浪潮网站| 亚洲免费观看高清| 日韩一区二区中文字幕| 一区二区三区四区精品| 国产精品久久久久久久久久新婚| 久久影视中文粉嫩av| 亚洲国产一二三精品无码| 男人添女人下面免费视频| 日韩人妻一区二区三区| 亚洲天堂av片| 日本午夜一区二区| 中文av一区二区| 欧美日韩国产天堂| 久久久精品影院| 999国产在线| 国产精品久久久久久久久电影网| 特种兵之深入敌后| 91久久国产视频| 日韩电影在线免费看| 中文字幕av在线一区二区三区| 欧美少妇性性性| 欧美二区在线播放| 欧美一区1区三区3区公司 | 国产91久久久| 久久综合久久综合久久综合| 欧美色综合网站| 欧美激情在线狂野欧美精品| 国新精品乱码一区二区三区18| 免费成人在线视频网站| 久久久久99精品成人| www.蜜桃av.com| 国产网站一区二区三区| 日韩精品中文字幕一区| 国产成人精品免高潮在线观看| 99精品视频网站| 久久久久久久久久久国产精品| 中国一级片黄色一级片黄| 国产成人精品一区二| 91国在线观看| 97在线观看视频国产| 亚洲精品日韩成人| 五级黄高潮片90分钟视频| av官网在线观看| 亚洲婷婷综合久久一本伊一区 | 国产精品麻豆视频| 亚洲国产天堂久久国产91| 国产伊人精品在线| 三级在线视频观看| 成年人视频免费| 日本一区二区三区高清不卡 | 免费无码不卡视频在线观看| 我要看黄色一级片| 国内精品不卡在线| 日韩一区二区三区免费看| 国产成人短视频| 国产视频九色蝌蚪| 羞羞影院体验区| 91亚洲男人天堂| 亚洲美女www午夜| 久久久久久高清| 亚洲av无码国产精品久久| 亚洲国产精品久久久久久久| 天天影视涩香欲综合网| 57pao国产成人免费| 妞干网在线视频观看| 欧美成人精品一区二区免费看片 | 国产亚洲精品久久久久久777| 俄罗斯精品一区二区| 丰满少妇一区二区三区专区| 少妇av在线播放| 欧美日韩免费观看一区二区三区 | 一区二区伦理片| 国产精一区二区三区| 亚洲成色www8888| 亚洲一区3d动漫同人无遮挡| 久草视频免费在线播放| 欧美国产精品一区二区三区| 欧美日韩爱爱视频| 99草草国产熟女视频在线| 99精品免费观看| 欧美性猛片aaaaaaa做受| 999日本视频| 毛片视频免费播放| 国产亚洲女人久久久久毛片| 欧美极品xxxx| 日本 片 成人 在线| 天天干天天操av| 欧美一区二区日韩| 免费av在线一区二区| 日本天堂中文字幕| 亚洲日本一区二区三区| 国产精品成人aaaaa网站| 国产国语老龄妇女a片| 韩国理伦片一区二区三区在线播放| 精品免费99久久| 成年人视频大全| 国产av无码专区亚洲av麻豆| 欧美日韩不卡一区| 在线成人av电影| 一卡二卡在线视频| 4438成人网| 欧美一级爱爱视频| 亚洲国产视频一区二区三区| 精品日产卡一卡二卡麻豆| 人妻av无码专区| 色婷婷综合视频| 亚洲系列中文字幕| 欧美大片久久久| 不卡欧美aaaaa| 国产91av在线| av男人的天堂av| 国产女人18毛片水真多成人如厕| 热久久免费国产视频| av男人的天堂av| 一区二区理论电影在线观看| 国产精品对白刺激久久久| 日韩欧美a级片| 欧美日韩高清在线播放| 国产欧美久久久久| 美日韩一区二区三区| 美女精品久久久| 少妇被狂c下部羞羞漫画| 国产女同性恋一区二区| 147欧美人体大胆444| www亚洲视频| 精品久久一二三区| 亚洲欧美视频二区| 久久亚洲捆绑美女| 亚洲一区二区三区成人在线视频精品| 国产特黄大片aaaa毛片| 日韩女优电影在线观看| 久久国产这里只有精品| 久久久久久久久久久久久久久99| 92福利视频午夜1000合集在线观看 | 国产又黄又大又爽| 亚洲图片在区色| 日韩免费高清一区二区| 一区二区三区不卡视频在线观看 | 美女黄页在线观看| 亚洲欧美www| 久久久久国产精品区片区无码| 亚洲美女精品一区| 制服诱惑一区| 国产精品综合网| 亚洲综合成人婷婷小说| 国产日韩欧美一区二区东京热| 日韩专区在线播放| 国产天堂av在线| 日韩欧美综合在线| 国产精品嫩草69影院| 亚洲自拍偷拍麻豆| 大荫蒂性生交片| 94色蜜桃网一区二区三区| 久久精彩视频| 免费人成黄页网站在线一区二区| 国产激情999| 一级黄色短视频| 欧美成人在线影院| 日韩乱码一区二区| 最新91在线视频| 免费在线一级片| 亚洲日韩欧美视频一区| 夫妇交换中文字幕| 亚洲护士老师的毛茸茸最新章节| 法国伦理少妇愉情| 91精品国产综合久久久蜜臀粉嫩 | 亚洲欧美日韩在线综合 | 影音先锋亚洲天堂| 免费不卡在线观看av| 国内精品福利视频| 久久久久久久国产精品| 少妇又紧又色又爽又刺激视频| 久久久国产一区二区三区| 欧美三级 欧美一级| 色悠悠久久久久| 97人人澡人人爽人人模亚洲| 欧美精品在线网站| 免费看av在线| 国产精品电影一区| 久久久精品午夜少妇| 亚洲伊人久久综合| 国产一区二区福利视频| 视频一区二区综合| 日本一区二区三区dvd视频在线 | 日本在线不卡视频一二三区| 丁香五月网久久综合| 国产精品一区二区男女羞羞无遮挡| 韩国成人av| 91尤物视频在线观看| 99在线免费视频观看| 亚洲乱码国产乱码精品精的特点| 黄色一级一级片| 在线欧美日韩精品| 欧美特级黄色录像| 中文字幕综合在线| 夜夜嗨aⅴ一区二区三区| 国产精品自产拍在线观看| 麻豆精品国产传媒mv男同| 午夜一区二区三区| 亚洲欧洲在线观看av| 亚洲精品成人在线播放| 日韩欧美国产一区二区在线播放 | 亚洲一区二区蜜桃| 欧美日韩国产在线观看| 日本黄色录像视频| 97香蕉超级碰碰久久免费软件 | 精品偷拍各种wc美女嘘嘘| 全部毛片永久免费看| 国产日韩欧美在线视频观看| 国产黄人亚洲片| 久草精品在线播放| 欧美一卡二卡在线| 欧美在线观看不卡| 亚洲iv一区二区三区| www久久精品| 波多野结衣免费观看| 精品香蕉在线观看视频一| 亚洲天堂中文在线| 久草热久草热线频97精品| 国产精品色一区二区三区| 丰满人妻一区二区三区大胸| 亚洲天堂免费视频| 无码精品在线观看| 乱熟女高潮一区二区在线| 在线亚洲人成电影网站色www| 久草视频在线免费看| 91在线精品视频| 国产精品久久久久久久久免费相片| 在线天堂www在线国语对白| 久久天天躁日日躁| 久久久久久久尹人综合网亚洲| 正义之心1992免费观看全集完整版| 欧美性xxxx极品hd欧美风情| 国产午夜视频在线播放| 国产精品久久波多野结衣| 亚洲免费毛片网站| 午夜黄色福利视频| 成人国产精品久久久久久亚洲| 国产精品天美传媒沈樵| 老司机精品免费视频| 国产一区欧美二区三区| 亚洲欧美日韩国产综合在线| 久久久久亚洲av无码专区体验| 91精品视频在线播放| 亚洲男人的天堂在线aⅴ视频| 糖心vlog免费在线观看 | 99鲁鲁精品一区二区三区| 亚洲一区二区日本| 精品人伦一区二区三区蜜桃网站 | 色综合欧美在线| 久久精品偷拍视频| 精品一区二区三区毛片| 亚洲成人a**站| 青青草国产成人av片免费| 青青草原国产在线视频| 欧美激情欧美激情| 欧美国产精品v| 国产精品第56页| 亚洲午夜高清视频| 精品国产一区二区三区忘忧草| 熟妇高潮一区二区三区| 三级在线免费看| 韩国欧美亚洲国产| 亚洲欧美日韩国产综合在线 | 日韩av成人网| 国产精品第七十二页| 亚洲午夜久久久久久久久电影院| 国产主播在线播放| 亚洲精品成人自拍| 亚洲欧美在线看| 不卡一二三区首页| 无码人妻精品一区二区三区夜夜嗨| 狠狠爱一区二区三区| 日韩精品综合一本久道在线视频| 麻豆国产精品官网| www亚洲色图| 日韩av电影免费播放| 亚洲男人第一网站| 久久久久久久网| 久一视频在线观看| 日本xxxxx18| 欧美巨乳在线观看| 一区二区三区日韩精品| 国产99久久九九精品无码免费| 亚洲美女爱爱视频| 成人久久久久爱| 欧美丰满高潮xxxx喷水动漫| 久久精品国内一区二区三区| 91禁男男在线观看| 亚洲一区 在线播放| 色综合久久精品亚洲国产| 1024精品合集| 黄色av网址在线| 在线免费观看成年人视频| 鲁丝片一区二区三区| 亚洲欧美日韩国产精品| 国产精品久久久久久久午夜片| ,一级淫片a看免费| 手机免费看av片| 视频一区二区三区在线观看| 久久婷婷国产麻豆91天堂| 亚洲国产综合色| 久久亚洲欧洲| 欧美三级日本三级| 久久久精品在线视频| 国产免费一区视频观看免费 | 国产精品美女一区二区在线观看| 一二三四区在线| 风间由美一二三区av片| 在线观看一区二区三区三州| 91精品国产高清久久久久久久久| 色八戒一区二区三区| 国产高清一区日本| 波多野结衣视频在线看| 男男一级淫片免费播放| 精品国产三级a∨在线| 国产成人91久久精品| 精品少妇一区二区三区免费观看| 国产欧美日韩精品一区| 色一情一乱一乱一区91av| 免费毛片在线播放免费| 精品久久久99| 亚洲日本一区二区三区在线不卡 | 一色道久久88加勒比一| 又大又硬又爽免费视频| 91久久精品国产91久久性色tv| 一区二区三区精品99久久| 色老头久久综合| 91色视频在线| 可以免费看不卡的av网站| 日本一级黄色录像| 成人免费无码大片a毛片| 国产妇女馒头高清泬20p多| 国产日韩欧美成人| 另类图片亚洲另类| 日韩精品一区二区三区中文不卡| 亚洲激情自拍偷拍| 国产成人aaa| 欧洲成人一区二区三区| 97免费在线观看视频| 波多野结衣先锋影音| 五月婷婷狠狠操| 在线成人性视频| 国产伦精品一区二区三区免| 青青草原一区二区| www高清在线视频日韩欧美| 欧美精品在线观看一区二区| 亚洲欧洲精品一区二区三区不卡| 激情亚洲综合在线| 亚洲奶汁xxxx哺乳期| 手机看片久久久| 麻豆一区在线观看| 中国免费黄色片| 亚洲最大综合网| 欧美人成在线观看| 伊人色综合久久天天五月婷| 国产伦精品一区二区三区免| 国产精品成人av在线| 欧美精品一二区| 亚洲欧美国产一本综合首页| 欧美精品自拍偷拍| 91久久精品一区二区二区| 亚洲激情图片qvod| 欧美—级在线免费片| 国产91精品露脸国语对白| 日韩va欧美va亚洲va久久| www视频在线| 国产精品一品二区三区的使用体验| 久久久久久久久久影院| 国产在线视频你懂的| 青娱乐国产精品| 久草国产在线视频| 国产一级理论片| 精品99在线观看| 国产这里有精品| 国产一级一级片| 日韩av电影网| 国产农村妇女aaaaa视频| 日本韩国欧美中文字幕| 日韩欧美一区二区一幕| 国产在线欧美在线| 欧美三级一区二区三区| 久久午夜免费视频| 在线观看亚洲欧美| 亚洲欧美综合另类| 久久久精品毛片| 国产字幕在线观看| 在线观看免费黄色小视频| 波多野结衣不卡| 国产精品久久久久久免费播放| 国产一区二区视频免费观看| 一区二区三区免费在线| 精品区在线观看| 天堂久久一区二区三区| 麻豆精品在线观看| 国产精品18久久久久| 国产成人一区二区精品非洲| 国产.精品.日韩.另类.中文.在线.播放| 国产自产2019最新不卡| 成人av在线网站| 国产精品无码永久免费888| 亚洲成人精品一区| 欧美情侣在线播放|