« 上一篇下一篇 »

大型网站网页内容重复问题的解决思路

网页内容重复指的是搜索引擎对两个以上网页通过它的计算方法比较后认定的结果,一般来讲两个网页的相似度(网页相似度查询检测)超过一定的比例就会被搜索引擎判定为网页重复。在一些大型的网站,网页内容重复的现象时有发生,有些是不可避免的,如一些基础数据需要不断的重复调用;有些是在网站规划之初,没有考虑到搜索引擎而产生的。这些问题是一些在对网站进行搜索引擎强化时面临的困难,那么有没有解决办法呢?秦爱根据自己的实践总结出以下几种,供大家分析。

网页重复

这两个美女,按搜索引擎中的理论会被定义为网页重复,或内容相似度太高

利用Robots解决网页内容重复问题

Robots在秦爱的博客中已经有过介绍,其存在的意义是告诉搜索引擎哪些内容不希望不它进行抓取和索引收录,详细可看《Google测试Robots.txt,你的网站合乎规则吗?》及《利用Robots.txt做搜索引擎优化》,其格式分为两种:一种是在根目录下放置Robots.txt文件,一种是在<head>中放置meta标签<meta name="robots" content="none">,这个标签的意思是告诉搜索引擎蜘蛛不收录不索引该页,content的属性还有all,index,noindex,follow,nofollow,all=index,follow,none=noindex,nofollow。

利用搜索引擎对一些内容不收录或收录极差的原则解决网页内容重复

一般来讲,图片或动画(GIF、JPG、FLASH)、JS代码、结构(IFRAME框架)三种内容会阻碍搜索引擎的收录,基于这种规律,我们可以将一些重复度较高的内容通过以上三种形式来表现,进而解决两个不同URL网页相似度过高的问题。事实上,秦爱带着这种思路研究一些门户型网站或一些B2B(B2C)网站时,发现他们已经在广泛使用。图片、JS代码不需说明,几乎所有的搜索引擎都不能有效读取,针对IFRAME框架有人研究表明百度是坚决不收录的,而谷歌有较少收录。

通过Link Canonical 属性指定权威网页

Google、Yahoo、Live search 支持Link的一个新属性Canonical,为网页指定权威链接(authoritative|canonical URL),目的就在于解决网页内容的重复问题。其格式为:<link rel="canonical" href="authoritative | canonical URL"/>,具体说明如下:

● href 可以是绝对地址或相对地址,但不能指向不同的域名(子域名不属于不同的域名),否则会被忽略;

● link rel="canonical" 属性可以被传递,即A页面指定B为权威链接,B指定C为权威网页,则搜索引擎会认为C是A和B共同的首选权威网页;

● 如果 href 指向的是一个404页,则搜索引擎仍会索引这个页的内容,并试图找到一个标准页。

举个例子:

http://www.newsunday.com/

http://www.newsunday.com/default.asp

如果秦爱希望搜索引擎收录的第一网址(权威网页),那么我们只需在default.asp的<head></head>区域内填加<link rel="canonical"  href="http://www.newsunday.com/" />即可。

针对大型网站网页重复的问题,秦爱大体就归结了以上三点,如果您有更好的思路或技巧,可以在评论中指出,与大家共享。