利用Robots.txt做搜索引擎优化

这两天一直在忙活着域名的事情,同时收到很多网友关于模板的投诉,下午就在改,大家已经看到了。现在有点时间把内容补上吧。今天给大家的一个和搜索引擎优化有关的话题,是经我试验后的结果,很有效,方法就是通过Robots.txt文件做减法来向搜索引擎示好,从而达到在搜索引擎上高效索引和排名的作用。

在拿出方法之前,让我们先思考这样一个问题。搜索引擎是否愿意收录大量页面重复的内容,估计大家都知道:不会。换成你是Google和Baidu你也不愿意(当然一些完全以收录量为目标的搜索引擎除外),搜索引擎有一大部分工作就是淘汰重复的网页。根据这种思想,我们可以帮助搜索引擎来完成这件事。当一个网页页面重复度低(要保证你的博客内容是原创哦),搜索引擎的友好度相应就有提升,这样整站的友好度高自然会带动文章在搜索引擎的索引效果。这种思想是基于互利原则的,绝不是作弊,其实SEO和作弊也绝不能画等号的。这种方法还有一个优点是:会节省你大量的服务器占用资源。

下面秦爱根据两种程序为大家举些例子,一是Wordpress,二是Zblog,其中Wordpress是国外SEO权威网站:SEOBOOK的,而Zblog是秦爱自己研究的,不过不要担心,经我试验只有效果明显。

★ Zblog中利用Robots.txt优化搜索引擎

User-agent:*
#Sitemap
Sitemap:http://www.yourname.com/sitemap.asp //这个指引搜索引擎蜘蛛找到你的Sitemap,在Google管理员工具中检测提示错误,这是Google Robots.txt的一个BUG,事实上是有效果且正确的。
#Directories
Disallow:/ADMIN/ //管理员登陆入口,搜索引擎就不要进来吧?呵
Disallow:/SCRIPT/ //我们调用的SCRIPT文件,搜索引擎抓到了,也不读。
Disallow:/PLUGIN/ //插件目录,不需要抓取
Disallow:/FUNCTION/ //不需抓取
Disallow:/UPDATE/ //Zblog官方的升级信息目录,不需抓取。
Disallow:/ARTICLE-IMAGE/ //网站模板中用到的一些小图标,这些在网上到处都是,就是让搜索引擎抓去了也没有排名,还浪费你的资源。
Disallow:/DATA/ //数据库目录
Disallow:/CACHE/ //Zblog生成静态页的缓存目录,这个和你的正常文章基本一致,高重复。建立拿掉
Disallow:/STYLE/ //CSS生成目录,不需抓取
Disallow:/TEMPLATE/ //模板目录,不需抓取
Disallow:/CSS/ //CSS的一些调用文件目录,不需抓取
Disallow:/LANGUAGE/ //语言目录,不必抓取
#Files
Disallow:/login.asp //我们的登录后台文件,不需抓取。
Disallow:/cmd.asp? //这个是供别人引用通知时产生的页面,不需抓取。
Disallow:/search.asp //搜索页,这页在没有人使用时,就是一个空页
Disallow:/atom.xml //支持ATOM的FEED页,高重复。
Disallow:/rss.xml //支持RSS的FEED页,高重复。
Disallow:/view.asp? //一般后台预览时生成的页面,高重复。

注意:你如果要用这段代码,把//和//前面的空格删掉再用,同时记得把sitemap地址改过来,要用绝对地址。Disallow:后面不要有空格,因为有空格在一些验证程序中通不过。另外,如果你是黑客或想成为黑客,请不要拿秦爱网志来研究,我是为大家做服务的,要研究去Z-Blog官方网站找他们PK。这句玩笑是半真半假的,我是想告诉读者,这种优化很容易让人找到你的目录结构。其实,如果哪位大侠盯上你的话,你跑也跑不掉。

★ Wordpress中利用Robots.txt优化搜索引擎

User-agent: *
Crawl-delay: 10
# Directories 目录
Disallow: /database/
Disallow: /includes/
Disallow: /sites/
Disallow: /themes/
Disallow: /misc/
Disallow: /modules/
Disallow: /scripts/
Disallow: /updates/
Disallow: /profiles/
# Files 单个文件
Disallow: /xmlrpc.php
Disallow: /cron.php
Disallow: /INSTALL.mysql.txt
Disallow: /INSTALL.pgsql.txt
Disallow: /INSTALL.txt
Disallow: /update.php
Disallow: /install.php
Disallow: /CHANGELOG.txt
Disallow: /MAINTAINERS.txt
Disallow: /LICENSE.txt
Disallow: /UPGRADE.txt
# Paths (clean URLs) 静态路径
Disallow: /search/
Disallow: /user/register/
Disallow: /user/password/
Disallow: /admin/
Disallow: /logout/
Disallow: /node/add/
Disallow: /aggregator/
Disallow: /comment/reply/
Disallow: /contact/
Disallow: /user/login/
# Paths (no clean URLs) 动态路径
Disallow: /?q=admin/
Disallow: /?q=aggregator/
Disallow: /?q=logout/
Disallow: /?q=node/add/
Disallow: /?q=comment/reply/
Disallow: /?q=contact/
Disallow: /?q=search/
Disallow: /?q=user/register/
Disallow: /?q=user/password/
Disallow: /?q=user/login/

由于我对WP的目录结构不太清楚,如果你用Wordpress,你一定能发现其中代表的意思,你可以参照Zblog中的说明来理解,秦爱就是研究了这段代码后更改的。再次希望网友不要拿秦爱网志来试验,如果你转载了此文,不要把这句话干掉,谢谢!搜索引擎优化归要结底是为了更好的收录你的网页,真正能得到搜索引擎认可的是你的内容。

【现有评论33条,我也说两句

  • quote  1. yiyix | http://www.waterylife.com |
  • 我还没用过robots.txt
    换模板了,呵,感觉速度快了很多~~~
  • 2007-12-17 10:01:11
  • quote  2. GoMain | http://www.gomain.net |
  • 对极了,
    wp的allinoneseo plugin 好像也有阻止的功能,但其并不直接生成robots.txt文件。
  • 2007-12-17 10:12:53
  • quote  3. 怕瓦落地 | http://www.pawaluodi.com |
  • 有没有提供这个黑客们还是可以轻易搞清楚目录结构的,底下的poweredby直接告诉了他们。。
    我很多次要改模板不知道怎么进行更好的时候就是到月光博客去,直接下载他的模板研究。。
  • 2007-12-17 10:32:02
  • quote  4. 麦田里的守望者 | http://www.2000xg.com |
  • 我是暂时没有时间研究这些了,不过还是先顶一下!
  • 2007-12-17 11:04:21
  • quote  5. ken | http://www.waacoo.com |
  • 简洁,清晰,明了,适用
    不仅仅是这篇文章
    还有你的模板!
  • 2007-12-17 11:32:10
  • quote  6. 秦爱 |  |
  • @ yiyix 我看过你的ROBOTS。TXT,但发现一个TITTLE,找了一圈没有明白是什么意思,不过建议你使用。
    @ GoMain ROBOTS的协议是搜索引擎都遵守的,这是很有用的工具。
  • 2007-12-17 11:39:41
  • quote  7. 秦爱 |  |
  • @ 怕瓦落地 你说的对,版权已经把目录结构告诉别人了。月光的我也经常看。
    @ 麦田里的守望者 有时间的话,可以去研究一下,道理相通且明白之后所有的程序都可以使用的了。
    @ ken 模板好吗?呵,这样我就安心了,其实我个人很怀念老模板的。
  • 2007-12-17 11:42:01
  • quote  9. 秦爱 |  |
  • @ 没有篱笆的家园 只要大家喜欢就可以。yiyix 说速度也快了,不知是不是。呵
  • 2007-12-17 11:52:39
  • quote  10. 怕瓦落地 | http://www.pawaluodi.com |
  • 秦爱你好,我搞了一个 博客圈活动征集 ,
    请过去看看,希望你能加入,也请提提意见!
  • 2007-12-17 12:15:12
  • quote  12. 果子 | http://yuguo.name |
  • 挺有用的,我试试
    关于模板,又有话说了,嘿嘿,别介意啊
    一般来说,评论有名字和邮箱网站等基本信息,然后是评论内容
    基本信息要跟评论内容挂钩的话,一般是基本星系在评论内容的左上角,符合阅读习惯.也可以是在右下角,符合署名习惯.
    但是你的显示方式是显示在右上角,所以第一次看的时候感觉是下一条评论的作者做出了这一条评论.仔细看间距,才知道弄错了.
    新模板不错,适合阅读,我支持你.非宽屏,FF,显示良好.
  • 2007-12-17 16:42:27
  • quote  14. 秦爱 |  |
  • @ 怕瓦落地 我简单看了一下,不错的。有时间我们考虑一下,把他搞得更有特色。这两天有些忙。
    @ leo 你的点名正好和yiyix一样,有时间我会完成的。
  • 2007-12-18 9:12:23
  • quote  15. 秦爱 |  |
  • @ 果子 你提的建议我基本都做了,就差LOGO了,可惜自己做不好,我也着急,但技术不行。这两天一直后半夜2点多睡,改一次模板代价比较大,尤其网友又给我提了这多意见。谢谢,小果子。
    @ Qsar 我已经把博客由自适应改成1024分辨率的啦,在FF\IE6\OPERA9下试验没有问题,宽屏下也应该有很好的体验了。谢谢朋友的关心
  • 2007-12-18 9:16:14
  • quote  16. Qsar | http://gunzonline.yo2.cn |
  • 点你的名字了 去做作业吧。。。XD[REVERT=秦爱 于 2007-12-18 21:31:03 回复]好的,我抽时间完成作业。呵[/REVERT]
  • 2007-12-18 21:31:03
  • quote  17. 凯尔 | http://www.kael.com.cn |
  • 偶把网站下的几乎所有的目录都禁了。[REVERT=秦爱 于 2007-12-18 21:31:39 回复]不要把文章页禁了啊,否则等于不让搜索引擎收录你的网页了。[/REVERT]
  • 2007-12-18 21:31:39
  • quote  19. 不是俺 | http://www.butwho.net |
  • 俺刚为baidu收录了俺含有大量标签的重复页而苦恼,直接把tags.asp禁了!
    参见:[url]http://www.butwho.net/2007/12/what_about_tags.html[/url]
  • 2007-12-18 15:35:10
  • quote  20. MyHou不務正業 | http://my-hou.cn |
  • 颇详细的!我的robots.txt很简单,而且收录了就OK啦!o(∩_∩)o...哈哈[REVERT=秦爱 于 2007-12-18 21:33:29 回复]我们争取做得更好而已。呵,不加ROBOTS.txt也能收录的。[/REVERT]
  • 2007-12-18 21:33:29
  • quote  21. 不是俺 | http://www.butwho.net |
  • 刚才发现,如果用zblog后台直接修改robots.txt,好像会产生些不正常的字符,导致motoricerca.info的检测结果出问题。[REVERT=秦爱 于 2007-12-18 21:34:27 回复]尽量用FTP下载下来再给吧,这个文件比较重要。[/REVERT]
  • 2007-12-18 21:34:27
  • quote  22. 秦爱 |  |
  • 别客气,常来。呵
  • 2007-12-18 21:32:37
  • quote  23. twoken | http://18cc |
  • 这个对于小blog来说不是很明显.但肯定为了全世界节电做了贡献.
  • 2007-12-19 0:40:45
  • quote  24. 秦爱 |  |
  • @ twoken 你的思路更独特,这点儿倒是没有想得那么深远。呵
  • 2007-12-19 17:19:03
  • quote  25. minidxer | http://blog.minidx.com |
  • 首先肯定一下这个做法是很不错的哈
    这个处理可以帮助搜索引擎减轻负担,但是对于搜索引擎给与这个网站的评价,几乎没什么影响的。爬虫采集到的信息,不仅仅是站内的要过滤,还要和主索引进行比较,过滤,优化的……
  • 2007-12-21 16:33:15
  • quote  27. 秦爱 |  |
  • @ 星心做的夜 你发评论发重了,帮你删了一个,你的博客会去看的。呵
  • 2007-12-23 23:40:48
  • quote  28. 斑马 | http://www.leobanma.cn/ |
  • 秦爱兄,按照你的这个优化策略,大概能提升多少的效率?
    另外有个问题,是不是收录越多越好啊?大量的标签页被收录对一个新博客来说有什么影响?
  • 2007-12-27 23:58:39
  • quote  29. 秦爱 |  |
  • TO:斑马 具体还要等一段时间能看到效果。
    收录恰恰相反,越少越好,但要保证你的文章都在收录之内的。因为内容在搜索引擎中重复越多,在补充材料中也就越多,当这种资料过多的时候就会降低搜索的权重,我基本是这样考虑的。
    标签页我没有做过限制,尽量让标签集中一些吧,把FEED等重复内容去掉就可以,但标签页我是没有去掉的。呵
  • 2007-12-28 8:29:19
  • quote  30. 不是俺 | http://www.butwho.net |
  • Disallow:/atom.xml //支持ATOM的FEED页,高重复。
    Disallow:/rss.xml //支持RSS的FEED页,高重复。

    今天发现,这两条可能会对google有影响。俺在管理员工具里面设的sitemap正是rss.xml,结果google说“robot不让抓”……

    俺觉得xml高重复没啥大不了的吧?
  • 2008-1-10 18:22:41

发表评论:

  • RSS订阅地址  通过邮箱订阅最新文章
  • 谷歌订阅 Blogines订阅
  • 抓虾订阅 鲜果订阅

站内搜索

最近发表

© 2004 秦爱网志 对部分内容保留所有权,博客程序归 Z-Blog 所有 辽ICP备05002435号