搜索引擎蜘蛛隐身三法

搜索引擎收录工作主要由搜索引擎蜘蛛来完成,每个主流的搜索引擎都有自己的蜘蛛爬虫,例如: Googlebot(Google蜘蛛)、baiduspider(百度蜘蛛)、Yahoo Slurp(Yahoo蜘蛛)、Msnbot(MSN蜘蛛)、Scooter(Altavista蜘蛛)、Lycos_Spider_(T-Rex) 、FAST-WebCrawler(Alltheweb蜘蛛)、ia_archiver(alexa蜘蛛Slurp(INKTOMI蜘蛛)等。想做搜索引擎的隐形人,可以通过以下三种方法来实现。

1、rel=nofollow

这种不识别链接的搜索标签,可以告诉搜索引擎蜘蛛直接跳过而不索引。具体的介绍请见“如何做付费链接而不被Google惩罚”,对Google 、Yahoo 、MSN(Live search)有效,对百度无效。

2、robots.txt

只需在你的网站根目录下建一个robots.txt文件,文件中输入:Disallow: 字符串即可,例如:

Disallow:newsunday.html 意思是要求蜘蛛爬虫不要下载该文件,不收录,不索引。

Disallow:/newsunday/ 意思是对newsunday文件夹中的所有文件不收录,不索引,不下载。

如果你想看一个具体的例子,可以看一下Google robots.txt是什么样的。

3、利用代码来实现

这是本文重点介绍的,但首先声明不要将此种用法用于对搜索引擎作弊方面,不能将其用于违返搜索引擎相关规则、欺骗搜索引擎的用途上。代码实现的效果是,用户在浏览经过代码定义过的内容,正常显示,而搜索引擎蜘蛛抓取时会不显示用户浏览的内容,本文以百度蜘蛛为例:

ASP

$userAgent = Server.GetVariables("HTTP_USER_AGENT");
If Not InStr(LCASE($userAgent), "baiduspider") Then
    ‘用户正常浏览时所能见到的内容代码
Else
    ‘搜索引擎蜘蛛能看到的代码及链接
End If


PHP

$userAgent = $_SERVER['HTTP_USER_AGENT'];
if(stristr(strtolower($userAgent), 'baiduspider') === FALSE) {
    //用户正常浏览时所能见到的内容
    //<!– 你的展示代码–>
}
else {
    //搜索引擎蜘蛛能看到的代码及链接
}


JSP

<%
String userAgent = request.getHeader( "User-Agent" );
if(userAgent.toLowerCase().indexOf("baiduspider") != -1) {
    //用户正常浏览时所能见到的内容代码
}
else {
    //搜索引擎蜘蛛能看到的代码及链接
}
%>


JAVASCRIPT

if(navigator.userAgent.toLowerCase().indexOf("baiduspider") <= -1) {
    //用户正常浏览时所能见到的内容
}
else {
    //搜索引擎蜘蛛能看到的代码及链接
}

当你看完本文时,也许你会觉得这篇文章中的代码做得没有意义,其实如果你细琢磨一下,能想出不少东西来。具体我就不说了,如果你觉得有用可以收藏下来,如果觉得没有太大用就当了解一点儿搜索引擎的常识吧。

【现有评论10条,我也说两句

  • quote  1. 麦田里的守望者 | http://www.2000xg.com/ |
  • 您涉猎的范围还确实是广,“每天想学一点,就到秦爱网志”,这个广告词怎么样啊?
  • 2007-11-23 8:45:42
  • quote  3. ken | http://www.waacoo.com |
  • 我也刚刚隐身了/BLOG的目录,因为是以前的东西,但是GOOGLE这个笨蛋不知道,老是说找不到,其实根本就不存在,于是我把它隐身了。
  • 2007-11-23 12:57:29
  • quote  5. Gomain | http://www.gomain.net |
  • 第三个方法思路太好了,其实直接给蜘蛛一些精华内容即可,区别开来还有利于SEO.
  • 2007-11-23 16:21:35
  • quote  6. bb |  |
  • 想不到网络真的能赚钱 http://www.diandai.com?r=23481 娱乐之余还能赚钱,何乐而不为呢
  • 2007-11-23 16:25:30
  • quote  7. 秦爱 |  |
  • @ 麦田里的守望者 兄弟,别这么客气,到我博客上看我的文章是给我面子,不要用您,用你就可以,或者叫秦爱。呵
    @ 威客部落 我也是从别人处学习的,共同进步。
    @ ken 目录用robots.txt就可以了,对了,做完之后不要忘记到GG管理员工具中检证一下,万一错了,可不太好。呵
    @ 果子 以后会有用到的地方的。呵,我如果都不知道它是用来干嘛的,我也不会放到上面。
    @ Gomain SEO没有想过,但不要做过火了,否则挨K不要找我哦。
    @ bb 你小子纯是发广告,这次不清了,不过下次最好不要这样。我天天查评论的。呵
  • 2007-11-23 19:31:32
  • quote  8. 难念的经 | http://www.1min.cn |
  • 确实不错 有机会实践一下~
  • 2007-11-29 22:08:45
  • quote  9. YNuu0730 |  |
  • YNuu0730
    vhyu6v
  • 2008-7-30 17:47:42

发表评论:

  • RSS订阅地址  通过邮箱订阅最新文章
  • 谷歌订阅 Blogines订阅
  • 抓虾订阅 鲜果订阅

热门日志

日志搜索

Copyright © 2004 秦爱网志 对部分内容保留所有权,博客程序归 Z-Blog 所有 辽ICP备05002435号