欧美性大战XXXXX久久久,丁香花在线影院观看在线播放,丰满人妻被公侵犯中文版,久久久久成人片免费观看

南沙新聞資訊

探知 ? 創(chuàng )造美好

不斷超越客戶(hù)的期望值,源自我們對這個(gè)行業(yè)的熱愛(ài)

robots.txt協(xié)議如何使用及寫(xiě)作語(yǔ)法

來(lái)源:http://www.futanlvdanban.cn| 2022-06-25 01:51:45

如何使用robots.txt及其詳解?在國內,網(wǎng)站管理者似乎對robots.txt并沒(méi)有引起多大重視,應一些朋友之請求,今天想通過(guò)這篇文章來(lái)簡(jiǎn)單談一下robots.txt的寫(xiě)作。

東莞網(wǎng)站建設公司
?robots.txt基本介紹?robots.txt是一個(gè)純文本文件,在這個(gè)文件中網(wǎng)站管理者可以聲明該網(wǎng)站中不想被robots訪(fǎng)問(wèn)的部分,或者指定搜索引擎只收錄指定的內容。
東莞網(wǎng)站設計
?當一個(gè)搜索機器人(有的叫搜索蜘蛛)訪(fǎng)問(wèn)一個(gè)站點(diǎn)時(shí),它會(huì )首先檢查該站點(diǎn)根目錄下是否存在robots.txt,如果存在,搜索機器人就會(huì )按照該文件中的內容來(lái)確定訪(fǎng)問(wèn)的范圍;如果該文件不存在,那么搜索機器人就沿著(zhù)鏈接抓取。?另外,robots.txt必須放置在一個(gè)站點(diǎn)的根目錄下,而且文件名必須全部小寫(xiě)。?robots.txt寫(xiě)作語(yǔ)法?首先,我們來(lái)看一個(gè)robots.txt范例:http://www.seovip.cn/robots.txt?訪(fǎng)問(wèn)以上具體地址,我們可以看到robots.txt的具體內容如下:?# Robots.txt file from http://www.seovip.cn# All robots will spider the domain?User-agent: *Disallow:?以上文本表達的意思是允許所有的搜索機器人訪(fǎng)問(wèn)www.seovip.cn站點(diǎn)下的所有文件。?具體語(yǔ)法分析:其中#后面文字為說(shuō)明信息;User-agent:后面為搜索機器人的名稱(chēng),后面如果是*,則泛指所有的搜索機器人;Disallow:后面為不允許訪(fǎng)問(wèn)的文件目錄。?下面,我將列舉一些robots.txt的具體用法:?允許所有的robot訪(fǎng)問(wèn)?User-agent: *Disallow:?或者也可以建一個(gè)空文件 "/robots.txt" file?禁止所有搜索引擎訪(fǎng)問(wèn)網(wǎng)站的任何部分?User-agent: *Disallow: /?禁止所有搜索引擎訪(fǎng)問(wèn)網(wǎng)站的幾個(gè)部分(下例中的01、02、03目錄)?User-agent: *Disallow: /01/Disallow: /02/Disallow: /03/?禁止某個(gè)搜索引擎的訪(fǎng)問(wèn)(下例中的BadBot)?User-agent: BadBotDisallow: /?只允許某個(gè)搜索引擎的訪(fǎng)問(wèn)(下例中的Crawler)?User-agent: CrawlerDisallow:?User-agent: *Disallow: /?另外,我覺(jué)得有必要進(jìn)行拓展說(shuō)明,對robots meta進(jìn)行一些介紹:?Robots META標簽則主要是針對一個(gè)個(gè)具體的頁(yè)面。和其他的META標簽(如使用的語(yǔ)言、頁(yè)面的描述、關(guān)鍵詞等)一樣,Robots META標簽也是放在頁(yè)面的<head></head>中,專(zhuān)門(mén)用來(lái)告訴搜索引擎ROBOTS如何抓取該頁(yè)的內容。?Robots META標簽的寫(xiě)法:?Robots META標簽中沒(méi)有大小寫(xiě)之分,name=”Robots”表示所有的搜索引擎,可以針對某個(gè)具體搜索引擎寫(xiě)為name=”BaiduSpider”。 content部分有四個(gè)指令選項:index、noindex、follow、nofollow,指令間以“,”分隔。?INDEX 指令告訴搜索機器人抓取該頁(yè)面;?FOLLOW 指令表示搜索機器人可以沿著(zhù)該頁(yè)面上的鏈接繼續抓取下去;?Robots Meta標簽的缺省值是INDEX和FOLLOW,只有inktomi除外,對于它,缺省值是INDEX,NOFOLLOW。?這樣,一共有四種組合:?<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW"><META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW"><META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW"><META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">?其中?<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">可以寫(xiě)成<META NAME="ROBOTS" CONTENT="ALL">;?<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">可以寫(xiě)成<META NAME="ROBOTS" CONTENT="NONE">?目前看來(lái),絕大多數的搜索引擎機器人都遵守robots.txt的規則,而對于Robots META標簽,目前支持的并不多,但是正在逐漸增加,如著(zhù)名搜索引擎GOOGLE就完全支持,而且GOOGLE還增加了一個(gè)指令“archive”,可以限制GOOGLE是否保留網(wǎng)頁(yè)快照。例如:?<META NAME="googlebot" CONTENT="index,follow,noarchive">?表示抓取該站點(diǎn)中頁(yè)面并沿著(zhù)頁(yè)面中鏈接抓取,但是不在GOOLGE上保留該頁(yè)面的網(wǎng)頁(yè)快照。?如何使用robots.txt?robots.txt 文件對抓取網(wǎng)絡(luò )的搜索引擎漫游器(稱(chēng)為漫游器)進(jìn)行限制。這些漫游器是自動(dòng)的,在它們訪(fǎng)問(wèn)網(wǎng)頁(yè)前會(huì )查看是否存在限制其訪(fǎng)問(wèn)特定網(wǎng)頁(yè)的 robots.txt 文件。如果你想保護網(wǎng)站上的某些內容不被搜索引擎收入的話(huà),robots.txt是一個(gè)簡(jiǎn)單有效的工具。這里簡(jiǎn)單介紹一下怎么使用它。?如何放置Robots.txt文件?robots.txt自身是一個(gè)文本文件。它必須位于域名的根目錄中并 被命名為"robots.txt"。位于子目錄中的 robots.txt 文件無(wú)效,因為漫游器只在域名的根目錄中查找此文件。例如,http://www.example.com/robots.txt 是有效位置,http://www.example.com/mysite/robots.txt 則不是。?這里舉一個(gè)robots.txt的例子:?User-agent: *?Disallow: /cgi-bin/?Disallow: /tmp/?Disallow: /~name/使用 robots.txt 文件攔截或刪除整個(gè)網(wǎng)站??要從搜索引擎中刪除您的網(wǎng)站,并防止所有漫游器在以后抓取您的網(wǎng)站,請將以下 robots.txt 文件放入您服務(wù)器的根目錄:?User-agent: *?Disallow: /?要只從 Google 中刪除您的網(wǎng)站,并只是防止 Googlebot 將來(lái)抓取您的網(wǎng)站,請將以下 robots.txt 文件放入您服務(wù)器的根目錄:User-agent: Googlebot?Disallow: /?每個(gè)端口都應有自己的 robots.txt 文件。尤其是您通過(guò) http 和 https 托管內容的時(shí)候,這些協(xié)議都需要有各自的 robots.txt 文件。例如,要讓 Googlebot 只為所有的 http 網(wǎng)頁(yè)而不為 https 網(wǎng)頁(yè)編制索引,應使用下面的 robots.txt 文件。對于 http 協(xié)議 (http://yourserver.com/robots.txt):?User-agent: *?Allow: /?對于 https 協(xié)議 (https://yourserver.com/robots.txt):?User-agent: *?Disallow: /?允許所有的漫游器訪(fǎng)問(wèn)您的網(wǎng)頁(yè)User-agent: *?Disallow:?(另一種方法: 建立一個(gè)空的 "/robots.txt" 文件, 或者不使用robot.txt。)?使用 robots.txt 文件攔截或刪除網(wǎng)頁(yè)?您可以使用 robots.txt 文件來(lái)阻止 Googlebot 抓取您網(wǎng)站上的網(wǎng)頁(yè)。 例如,如果您正在手動(dòng)創(chuàng )建 robots.txt 文件以阻止 Googlebot 抓取某一特定目錄下(例如,private)的所有網(wǎng)頁(yè),可使用以下 robots.txt 條目:??User-agent: Googlebot?Disallow: /private要阻止 Googlebot 抓取特定文件類(lèi)型(例如,.gif)的所有文件,可使用以下 robots.txt 條目:User-agent: Googlebot?Disallow: /*.gif$要阻止 Googlebot 抓取所有包含 ? 的網(wǎng)址(具體地說(shuō),這種網(wǎng)址以您的域名開(kāi)頭,后接任意字符串,然后是問(wèn)號,而后又是任意字符串),可使用以下條目:User-agent: Googlebot?Disallow: /*??盡管我們不抓取被 robots.txt 攔截的網(wǎng)頁(yè)內容或為其編制索引,但如果我們在網(wǎng)絡(luò )上的其他網(wǎng)頁(yè)中發(fā)現這些內容,我們仍然會(huì )抓取其網(wǎng)址并編制索引。因此,網(wǎng)頁(yè)網(wǎng)址及其他公開(kāi)的信息,例如指 向該網(wǎng)站的鏈接中的定位文字,有可能會(huì )出現在 Google 搜索結果中。不過(guò),您網(wǎng)頁(yè)上的內容不會(huì )被抓取、編制索引和顯示。?作為網(wǎng)站管理員工具的一部分,Google提供了robots.txt分析工具。它可以按照 Googlebot 讀取 robots.txt 文件的相同方式讀取該文件,并且可為 Google user-agents(如 Googlebot)提供結果。我們強烈建議您使用它。 在創(chuàng )建一個(gè)robots.txt文件之前,有必要考慮一下哪些內容可以被用戶(hù)搜得到,而哪些則不應該被搜得到。 這樣的話(huà),通過(guò)合理地使用robots.txt, 搜索引擎在把用戶(hù)帶到您網(wǎng)站的同時(shí),又能保證隱私信息不被收錄。??? ? ? ?誤區一:我的網(wǎng)站上的所有文件都需要蜘蛛抓取,那我就沒(méi)必要在添加robots.txt文件了。反正如果該文件不存在,所有的搜索蜘蛛將默認能夠訪(fǎng)問(wèn)網(wǎng)站上所有沒(méi)有被口令保護的頁(yè)面。?  每當用戶(hù)試圖訪(fǎng)問(wèn)某個(gè)不存在的URL時(shí),服務(wù)器都會(huì )在日志中記錄404錯誤(無(wú)法找到文件)。每當搜索蜘蛛來(lái)尋找并不存在的robots.txt文件時(shí),服務(wù)器也將在日志中記錄一條404錯誤,所以你應該做網(wǎng)站中添加一個(gè)robots.txt?! ≌`區二:在robots.txt文件中設置所有的文件都可以被搜索蜘蛛抓取,這樣可以增加網(wǎng)站的收錄率?! 【W(wǎng)站中的程序腳本、樣式表等文件即使被蜘蛛收錄,也不會(huì )增加網(wǎng)站的收錄率,還只會(huì )浪費服務(wù)器資源。因此必須在robots.txt文件里設置不要讓搜索蜘蛛索引這些文件?! 【唧w哪些文件需要排除, 在robots.txt使用技巧一文中有詳細介紹?! ≌`區三:搜索蜘蛛抓取網(wǎng)頁(yè)太浪費服務(wù)器資源,在robots.txt文件設置所有的搜索蜘蛛都不能抓取全部的網(wǎng)頁(yè)?! ∪绻@樣的話(huà),會(huì )導致整個(gè)網(wǎng)站不能被搜索引擎收錄。robots.txt使用技巧? ?1. 每當用戶(hù)試圖訪(fǎng)問(wèn)某個(gè)不存在的URL時(shí),服務(wù)器都會(huì )在日志中記錄404錯誤(無(wú)法找到文件)。每當搜索蜘蛛來(lái)尋找并不存在的robots.txt文件時(shí),服務(wù)器也將在日志中記錄一條404錯誤,所以你應該在網(wǎng)站中添加一個(gè)robots.txt。?  2. 網(wǎng)站管理員必須使蜘蛛程序遠離某些服務(wù)器上的目錄——保證服務(wù)器性能。比如:大多數網(wǎng)站服務(wù)器都有程序儲存在“cgi-bin”目錄下,因此在robots.txt文件中加入“Disallow: /cgi-bin”是個(gè)好主意,這樣能夠避免將所有程序文件被蜘蛛索引,可以節省服務(wù)器資源。一般網(wǎng)站中不需要蜘蛛抓取的文件有:后臺管理文件、程序腳本、附件、數據庫文件、編碼文件、樣式表文件、模板文件、導航圖片和背景圖片等等?! ∠旅媸荲eryCMS里的robots.txt文件:  User-agent: *  Disallow: /admin/ 后臺管理文件  Disallow: /require/ 程序文件  Disallow: /attachment/ 附件  Disallow: /images/ 圖片  Disallow: /data/ 數據庫文件  Disallow: /template/ 模板文件  Disallow: /css/ 樣式表文件  Disallow: /lang/ 編碼文件  Disallow: /script/ 腳本文件  3. 如果你的網(wǎng)站是動(dòng)態(tài)網(wǎng)頁(yè),并且你為這些動(dòng)態(tài)網(wǎng)頁(yè)創(chuàng )建了靜態(tài)副本,以供搜索蜘蛛更容易抓取。那么你需要在robots.txt文件里設置避免動(dòng)態(tài)網(wǎng)頁(yè)被蜘蛛索引,以保證這些網(wǎng)頁(yè)不會(huì )被視為含重復內容?! ?. robots.txt文件里還可以直接包括在sitemap文件的鏈接。就像這樣:  Sitemap: sitemap.xml  目前對此表示支持的搜索引擎公司有Google, Yahoo, Ask and MSN。而中文搜索引擎公司,顯然不在這個(gè)圈子內。這樣做的好處就是,站長(cháng)不用到每個(gè)搜索引擎的站長(cháng)工具或者相似的站長(cháng)部分,去提交自己的sitemap文件,搜索引擎的蜘蛛自己就會(huì )抓取robots.txt文件,讀取其中的sitemap路徑,接著(zhù)抓取其中相鏈接的網(wǎng)頁(yè)?! ?. 合理使用robots.txt文件還能避免訪(fǎng)問(wèn)時(shí)出錯。比如,不能讓搜索者直接進(jìn)入購物車(chē)頁(yè)面。因為沒(méi)有理由使購物車(chē)被收錄,所以你可以在robots.txt文件里設置來(lái)阻止搜索者直接進(jìn)入購物車(chē)頁(yè)面。


robots.txt協(xié)議如何使用及寫(xiě)作語(yǔ)法由東莞網(wǎng)站設計編輯 http://www.futanlvdanban.cn/wuh/news/9315.html如需轉載請注明出處

東莞網(wǎng)站建設 東莞做網(wǎng)站 東莞網(wǎng)站制作 東莞網(wǎng)頁(yè)制作 東莞網(wǎng)站改版 東莞小程序開(kāi)發(fā) 東莞建網(wǎng)站 東莞響應式網(wǎng)站 免費網(wǎng)站建設 營(yíng)銷(xiāo)型網(wǎng)站建設 企業(yè)網(wǎng)站建設 中山網(wǎng)站建設 外貿網(wǎng)站建設 汕頭網(wǎng)站建設 手機網(wǎng)站建設 商城網(wǎng)站建設 珠海網(wǎng)站建設 深圳網(wǎng)站建設 網(wǎng)站托管 SEO外包 關(guān)鍵詞優(yōu)化

多一份參考,總有益處

AA级女人大片免费视频| 中文字幕在线日亚州9| 337p粉嫩日本欧洲亚福利| 久久婷婷综合色丁香五月 | 少妇一晚三次一区二区三区| 免费看无码自慰一区二区|