学习网站建设,网页知识,电脑技巧,AS3代码,FLASH效果,课件制作,网络学习,运动生活,心情日志博客

解决百度只收录tags页和日期页的方法

  大概从2011年3月份开始,龙的传人博客就出现了百度只收录tag页和日期页的情况,文章页则被K光,一篇也没有收录。起初以为是百度降低了博客的权重,但后来发现首页的快照仍然是隔日更新的,后来发布的文章页虽然没有收录,但会收录一个发表文章当日的日期页,地址中可以看到是以“/?m=”开头的。并且tag页也会随着新增的标签而被收录。

  后来经过认真的分析,我认为:博客需要SEO优化一下,文章页没有收录的原因,是因为百度蜘蛛索引了日期页或TAG页,并且认为这两种页面与文章页的内容出现了重复,且日期页或TAG页应该比文章页更重要,所以只收录了这两种页面。

  找到了大概的原因,才好对症下药。我在网上多方查找资料,学习前人的经验,采取了三项措施,目前取得了初步的成效。今天用百度site了一下,百度终于放出了以前收录的两个文章页面(见下图),其他更多文章页面能否放出?还有待于后期进一步观察。

site列表

  下面就来介绍一下我所进行的三项改动,至于百度恢复对文章页的收录是哪一种做法所起的效果,我也不太清楚。

  一、去掉了模板上的“标签”和“日历”,并且去掉了用prower主题自带模板页面功能设置的一个单独的标签云页面(tags)。在标签云页面里涵盖了“龙的传人”博客所使用过的所有标签。这样从源头上减少百度蜘蛛爬取并收录TAG页和日期页的机率。

  二、在文件的模板文件header.php文件进行条件判断,识别各种页面后,再用meta标签分别引导百度蜘蛛和GOOGLE爬虫是否爬取和索引相关的页面。

  三、使用robots.txt文件限制各种搜索引擎索引TAG和日期页、paged页等。robots.txt文件的内容是这样的(括号中是说明文字,使用时应该去掉):

User-agent:*      (针对所有搜索引擎有效)
Disallow: /wp-
Disallow: /?tag=      (不收录TAG页)
Disallow: /?cat=       (不收录目录页)
Disallow: /?m=         (不收录日期页)
Disallow: /?r=
Disallow: /?s=
Disallow: /?paged=          (不收录博文列表分页)
Disallow: /?feed=
Disallow: /cgi-sys             (不收录空间的默认页面)

Sitemap:http://www.lxlong.net/?page_id=1941 (网站地图,我给了三种形式的)
Sitemap: http://www.lxlong.net/sitemap.html
Sitemap: http://www.lxlong.net/sitemap_baidu.xml

  个人感觉以上做法中,robots.txt内容的设置最为有效,不仅对于百度,即便是GOOGLE的收录也会因此而做出相应的调整,从而减少非文章页的收录,达到最优化的收录,增加博客的用户体验。robots.txt文件的写法参考了很多网友的写法,可能仍然还不够完善,有不合理之处,希望能够得到朋友们的帮助和指点。

本文地址:http://www.lxlong.net/archives/3976.html

本文标题:解决百度只收录tags页和日期页的方法

 
« »                

1条评论

  1. 班服 说:

    我的2个WP博客也越到跟你一样的难题,真是杯具啊!

发表评论 »