最近Google好象正在测试robots.txt文件中的Noindex命令,其他的一些命令如:nofollow Noarchive 可能也在其中,当然这些只是一些站长的实验后的看法。无论怎么样,robots.txt作为影响搜索引擎收录的重要因素,我们应该对robots.txt作一次体检。在New robots.txt commands: make sure that Google can index your site一文中,作者给出了几点意见,秦爱整理成了中文供大家借鉴,并为大家扩展了三款robots.txt有效性检测和robots.txt生成工具。

针对Google此次对robots.txt的检测,我们除了应完全按照Robots.txt 协议标准来书写外,还应在以下方面重点考虑:
1、使用官方的最基本的两个命令:User-agent和Disallow,其他的新命令不建议使用,至少在这段时期内不要尝试新命令在robots中的应用。
2、不要改变User-agent和Disallow的书写顺序,即先写User-agent,再写Disallow
3、对于Disallow命令,不能将其后的文件或目录写在一行中,例如:"Disallow: /newsunday /post/ /images/" ,这样写是错误的,应该写成:
Disallow: /newsunday
Disallow:/post/
Disallow:/images/
4、如果服务器中的文件名是:Newsunday,那么在robots.txt中就不能将其写成“newsunday”,以robots.txt文件中两者是不一样的,unix系统中也是这种规则。
如果你对上面这些意见很烦,那么你也可以通过 Robots.txt Checker 和 Robots.txt syntax checker 来检测你的robots.txt文件的有效性,当然google管理员工具中也有相关的检测工具;如果你的网站还没有使用使用robots.txt,而你还希望限制搜索引擎对你的一些重要文件的索引,你可以使用 Robots.txt Generator 在线生成robots.txt,在该工具中有一项为“Which Robots to allow”,意思是你不希望哪个蜘蛛索引你的网站,可能会需要你知道几个搜索引擎蜘蛛的名字,秦爱在“搜索引擎蜘蛛隐身三法”已经提及,你可以参照一下。
补充:为什么要考虑使用robots.txt文件?
1、有些文件是我们的内部文件,不希望在互联网上被其他人查找到。
2、有时,有些搜索引擎会不断的重复抓取你的网页,浪费了大量的服务器资源,但在其搜索结果的排序中,你的网站没有一个好的索引,你的网站来自于该搜索引擎的流量几乎没有,这时,你可能需要干掉它。
3、我们都知道:搜索引擎的图片搜索功能会把你的图片搜索出来,但用户一般直接从搜索结果中直接下载图片,而不会关心你的网站,甚至记不住图片的来源。同时,我们还知道,图片是很浪费服务器系统资源的。如果你不是做图片站,建议你将其Disallow,以此类推,有类似的目录存在此种情况,你都可以使robots.txt来实现。
4、实现正常出售收费链接而不被搜索引擎惩罚的一些高级应用,详细请见秦爱网志的“如何做付费链接而不被Google惩罚”一文。
【现有评论15条,我也说两句】




