自从有了谷歌的SITEMAP协议后,很多人都在期待着百度也能开放相关的收录协议。虽然百度在很久以前就开放了百度新闻搜索收录协议和百度阿拉丁计划之搜索开放平台,但由于要求较高其协议惠及面相对狭小,前些天,百度开放了他的第三个SITEMAP协议:互联网论坛收录开放协议,此协议经秦爱测试,确实有引领百度蜘蛛及时抓取论坛最新帖子。
百度论坛收录开放协议采用的依然是XML格式,并明确该协议是百度收录论坛的标准,是搜索引擎“订阅”论坛的RSS,能够实现流量的潜在增长等。可以说,这样的词汇与含义对于广大论坛来讲是非常有诱惑力的。百度为论坛制定了收录的基本格式即有认为论坛的发布方式已经成熟化的一面,也有阻碍论坛这一特定WEB系统创新机制。但凡是涉及到规范化的内容都遇到不同的声音,百度开启论坛收录的规范,无非是开始重视论坛的海量数据,或想施加百度对论坛的影响力,或存在着论坛搜索的技术障碍,或想加强百度搜索的用户体验,或为将来是否需要推出网页搜索的SITEMAP做先期测试......无论怎样,这种协议的开放对于使用者和论坛运营者都是好事。
也许是网页对百度网页搜索SITEMAP需求过于强烈,现在有人已经尝试着将博客或CMS按论坛的标签标准进处理成博客百度SITEMAP或CMS SITEMAP,至于效果怎么样,或者说以后百度如何处理这种偷梁换柱的行为,不可而知。
关于博客如何将XML改成百度可收录的论坛SITEMAP,下面是秦爱给出对照,您如果愿意,可以根据下面的规则尝试创建一个XML,文件名命名为sitemap_baidu.xml,放于站点根目录,供百度订阅抓取:
*
*
*
*
*
*
*
* 帖子的 url 地址,即帖子第一页的地址【博文URL地址】
*
*
*
*
*
*
*





