free789免费建站网
 

robots.txt简介

本文发布于2006-12-28 14:11:31,浏览2383次,好评(0个)投一票
   有时你会莫名其妙地发现你的主页的内容在一个搜索引擎中被索引,即使你从未与他 们有过任何联系。其实这正是Web Robot的功劳。Web Robot其实是一些程序,它可以 穿越大量Internet网址的超文本结构,递归地检索网络站点所有的内容。这些程序有时被叫 “蜘蛛(Spider)” , “网上流浪汉(Web Wanderer)”,”网络蠕虫(web worms)”或Web crawler。常见的搜索引擎有google,yahoo,msn,百度,soso,sogou等等。

    现在所有网站都考虑seo,所谓seo就是优化网站对这些搜索引擎的友好度,让自己的网站更容易通过搜索引擎被访问到。然而,Robot程序抓你的网站页面时,有时会因为频率太高而影响你的服务器,所以,合理的设置robots.txt(注意,是robots)很重要。

    若要控制爬网你的网站的时间和方式,请在网站的顶层(根)目录创建 robots.txt 文件。在 robots.txt 中,可以指定允许或阻止哪些爬网软件。大部分爬虫程序都遵循robots.txt的规范。

    robots.txt是一个纯文本文件,通过在这个文件中声明该网站中不想被robots访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。
   

    当一个搜索机器人访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果找到,搜索机器人就会按照该文件中的内容来确定访问的范围,如果该文件不存在,那么搜索机器人就沿着链接抓取。
   

    robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。

下面是一些robots.txt基本的用法:

l 禁止所有搜索引擎访问网站的任何部分:
User-agent: *
Disallow: /

l 允许所有的robot访问
User-agent: *
Disallow:
或者也可以建一个空文件 “/robots.txt” file

l 禁止所有搜索引擎访问网站的几个部分(下例中的cgi-bin、tmp、private目录)
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/

l 禁止某个搜索引擎的访问(下例中的BadBot)
User-agent: BadBot
Disallow: /

l 只允许某个搜索引擎的访问(下例中的WebCrawler)
User-agent: WebCrawler
Disallow:

User-agent: *
Disallow: /

l 所有的搜索引擎抓取间隔设置(20意味着20秒):

User-agent:*

Disallow:

Crawl-delay:20

3、 常见搜索引擎机器人Robots名字

名称 搜索引擎

Baiduspider http://www.baidu.com

Scooter http://www.altavista.com

ia_archiver http://www.alexa.com

Googlebot http://www.google.com

FAST-WebCrawler http://www.alltheweb.com

Slurp http://www.inktomi.com

MSNBOT http://search.msn.com

发现一个生成robots.txt的工具网站,与各位朋友分享。

http://www.mcanerin.com/EN/search-engine/robots-txt.asp

 

======全球免费中心版权声明(本站从09-4-29开始加强免费资源版权管理)=========
不管出于何目的转载本文,请注明版权信息(包括来源和作者),否则一经发现将逐个处理。
若本站转了您的信息而未标明或标错或未找到出处而没标明的,请联系我们,2天内处理。

网友评论

 

因为目前没有时间可以管理评论,所以暂停评论功能!2009.12.19

 

随机推荐

专题与标签

本分类排行榜:

本分类好评榜:

全站随机推荐

© 2005-2020 free789免费中心 | Power by Free789 v18 | 联系我们 | 关于本站
如何访问 | 广告服务 | 免责声明 | 版权声明 闽公网安备 35052402000110号
GMT +8, 2018-10-19 04:46:10, Processed in 10.4ms 闽ICP备12008353号-2
本站程序和风格皆由站长飕飕然100%原创制作,谢绝模仿,违者必究。
本站页面兼容几乎所有主流浏览器,您可根据自己的喜好选择浏览器。
原名『全球免费中心』,于2013年6月16日改名为『free789免费中心』