« 上一篇下一篇 »

百度开放论坛SITEMAP协议

自从有了谷歌的SITEMAP协议后,很多人都在期待着百度也能开放相关的收录协议。虽然百度在很久以前就开放了百度新闻搜索收录协议和百度阿拉丁计划之搜索开放平台,但由于要求较高其协议惠及面相对狭小,前些天,百度开放了他的第三个SITEMAP协议:互联网论坛收录开放协议,此协议经秦爱测试,确实有引领百度蜘蛛及时抓取论坛最新帖子。

百度论坛路标

百度论坛收录开放协议采用的依然是XML格式,并明确该协议是百度收录论坛的标准,是搜索引擎“订阅”论坛的RSS,能够实现流量的潜在增长等。可以说,这样的词汇与含义对于广大论坛来讲是非常有诱惑力的。百度为论坛制定了收录的基本格式即有认为论坛的发布方式已经成熟化的一面,也有阻碍论坛这一特定WEB系统创新机制。但凡是涉及到规范化的内容都遇到不同的声音,百度开启论坛收录的规范,无非是开始重视论坛的海量数据,或想施加百度对论坛的影响力,或存在着论坛搜索的技术障碍,或想加强百度搜索的用户体验,或为将来是否需要推出网页搜索的SITEMAP做先期测试......无论怎样,这种协议的开放对于使用者和论坛运营者都是好事。

百度论坛XML

也许是网页对百度网页搜索SITEMAP需求过于强烈,现在有人已经尝试着将博客或CMS按论坛的标签标准进处理成博客百度SITEMAP或CMS SITEMAP,至于效果怎么样,或者说以后百度如何处理这种偷梁换柱的行为,不可而知。

关于博客如何将XML改成百度可收录的论坛SITEMAP,下面是秦爱给出对照,您如果愿意,可以根据下面的规则尝试创建一个XML,文件名命名为sitemap_baidu.xml,放于站点根目录,供百度订阅抓取:

* 标记整个XML文件内容的开始和结束。后面的" xmlns:bbs =" http://www.baidu.com/search/bbs_sitemap.xsd"是该xml文件遵守百度《互联网论坛收录开放协议》的声明,如没有该段声明,xml文件不支持下面的等语法。

* 站点地址【博客地址】

* 负责人员的Email【博主的Email】

* sitemap 更新周期,以小时为单位【允许搜索引擎多久到博客中抓取文章】

* 该 xml 文件最近一次的更新时间【最后一篇博文发布的时间】

* 论坛所使用程序的版本【博客的程序版本】

* 标记每个帖子信息的开始和结束,标记内为单个帖子信息【标记每篇博文的开始和结束标记符】

* 帖子的 url 地址,即帖子第一页的地址【博文URL地址】

* 帖子主贴的发布时间【博文发布时间】

* 帖子最后一条回复的发布时间【博文最后一条评论的时间】

* 帖子总的回复数【博文的评论数】

* 帖子总的查看次数【博文的浏览量】

* 帖子主贴的长度,单位字节【博文的长度】

* 帖子所在版面,提供版面的 id【博文所在栏目】

* 是否设为精华,精华标为 1 ,非精华标为 0 【博文是否为置顶】