亚洲欧洲日本精品_日韩亚洲综合在线_成年人免费在线视频网站_日本中文字幕不卡免费_影音先锋中文字幕一区_男人的天堂网页_欧美成年人视频_国产亚洲高清在线观看_国产美女免费无遮挡_久久婷婷一区二区三区

<rt id="akcyc"></rt>

>> 微信網站-自助建站

知識中心

服務指南

最新文章

	西安學校教育行業網站建設方案
	西安電子商務網站建設解決方案
	西安酒店餐飲行業網站建設方案
	西安旅游服務行業網站建設方案
	西安醫院醫療行業網站建設方案
	西安政府電子政務網站建設方案
	西安生產制造行業網站建設方案
	做好網站原創內容設計的五大要點

您現在的位置：西安做網站_西安玖佰網絡 > 知識中心 > 網站建設推廣 > 正文

如何正確配置Robots.txt？

西安玖佰網絡 m.multiweal.cn 點擊數：更新時間：2009/4/28 11:00:07

新站上線，最希望能夠盡快被搜索引擎收錄。只有收錄，才有后面的許許多多網站優化。

一般來說，Baidu對于新站是來者不拒，有很多都是濫竽充數，而Google相對較慢了，原因是Google對于新站都有一定的審核機制，防止一些新站利用黑帽網站優化手段短時期內即取得較好排名，這是一個最重要的可能原因。

當然，我們并不希望搜索引擎收錄網站中的任何頁面。其中某些頁面——由于隱私、管理等等——并不希望被收錄。

當搜索引擎來網站抓取頁面時，它們會先查看該站的robots.txt文件，以了解你所允許它抓取的范圍，包括哪些文件，哪些目錄。

正確的配置網站的robots.txt非常重要，錯誤的配置會導致搜索引擎不能很好的收錄甚至無法收錄，這種案例現在仍有發生，有的博客建立以后長達幾個月沒有被收錄。

各個搜索引擎都有自己的搜索機器人（Robots）在為他們工作，這些Robots在網絡上沿著網頁上的鏈接（一般是http和src鏈接）不斷抓取資料建立自己的數據庫，正是得益于這些機器人的勤勞工作，才有如此海量的數據供我們檢索。

下面是一些搜索引擎的機器人名稱：

機器人名稱	搜索引擎
Baiduspider	http://www.baidu.com
Googlebot	http://www.google.com/
MSNBOT	http://search.msn.com/
FAST-WebCrawler	http://www.alltheweb.com/
ia_archiver	http://www.alexa.com/
Scooter	http://www.altavista.com/
Slurp	http://www.inktomi.com

為了防止自己的網頁被搜索到，Robots開發界提出了兩個方法：一個是robots.txt，另一個是The Robots META標簽。

Robot.txt
簡單的說，Robot.txt就是一個純文本文檔，里面包含一些命令，當Robots來網站時，就會首先檢查該網站上是否有Robot.txt，若有，則一般會根據這些命令來執行；若無，則會自動抓取網頁或網站。Robots.txt 文件應放于網站根目錄下，并且該文件是可以通過互聯網進行訪問的。如Google的robot.txt：http://www.google.com/robots.txt

下面看一個具體的實例（#后面的內容是為方便閱讀而設）：

# robots.txt file start

# Exclude Files From All Robots:

User-agent: *
Disallow: /security/
Disallow: /admin/
Disallow: /admin

# End robots.txt file

User-agent：用于描述搜索引擎蜘蛛的名字，在 Robots.txt 文件中，如果有多條User-agent記錄說明有多個搜索引擎蜘蛛會受到該協議的限制，對該文件來說，至少要有一條User-agent記錄。如果該項的值設為*，則該協議對任何搜索引擎蜘蛛均有效，在”Robots.txt 文件中，“User-agent:*”這樣的記錄只能有一條。

Disallow：就表示不允許蜘蛛訪問，你可以根據自己的需要設立后面的目錄或者是文件，比如管理員后臺登陸的頁面或者目錄等。

Disallow: /admin/：是指允許搜索引擎蜘蛛抓取/admin.html，而不能抓取/admin/index.html。

Disallow: /admin：是指/admin.html 和/admin/index.html都不允許搜索引擎蜘蛛抓取。

下面有四個舉例：
例一：通過”/robots.txt”禁止所有搜索引擎蜘蛛抓取”/bin/cgi/”目錄，以及 “/tmp/”目錄和 /foo.html 文件，設置方法如下：
User-agent: *
Disallow: /bin/cgi/
Disallow: /tmp/
Disallow: /foo.html

例二：通過”/robots.txt”只允許某個搜索引擎抓取，而禁止其他的搜索引擎抓取。
如：只允許名為”slurp”的搜索引擎蜘蛛抓取，而拒絕其他的搜索引擎蜘蛛抓取 “/cgi/” 目錄下的內容，設置方法如下：
User-agent: *
Disallow: /cgi/

User-agent: slurp
Disallow:

例三：禁止任何搜索引擎抓取我的網站，設置方法如下：
User-agent: *
Disallow: /

例四：只禁止某個搜索引擎抓取我的網站
如：只禁止名為“slurp”的搜索引擎蜘蛛抓取，設置方法如下：
User-agent: slurp
Disallow: /

Robots Meta標簽
robot.txt主要是針對整個網站而言，相比之下，Robots Meta標簽則是針對某個具體的網頁不希望被搜索到。

需要注意的是：上述的robots.txt和Robots META標簽限制搜索引擎機器人（Robots）抓取站點內容的辦法只是一種規則，需要搜索引擎機器人的配合才行，并不是每個Robots都遵守的，這方面百度似乎做得不是很好。

我們專注于：西安網站建設,網站制作,網頁設計,網站推廣,網站改版,網站維護,域名注冊,網站空間等服務
[西安玖佰網絡：http://m.multiweal.cn/] 專業的西安做網站公司。

上一篇文章： web設計中巧妙地使用CSS選擇器

下一篇文章：有效增加網站反向鏈接和外部鏈接的方法

西安做網站 西安建網站電話：15339190980 / 029-85535950 Email：900c@163.com

西安網站建設 西安做網站公司 西安網站制作 西安做網站的公司