解决百度只收录tags页和日期页的方法
大概从2011年3月份开始,龙的传人博客就出现了百度只收录tag页和日期页的情况,文章页则被K光,一篇也没有收录。起初以为是百度降低了博客的权重,但后来发现首页的快照仍然是隔日更新的,后来发布的文章页虽然没有收录,但会收录一个发表文章当日的日期页,地址中可以看到是以“/?m=”开头的。并且tag页也会随着新增的标签而被收录。
后来经过认真的分析,我认为:博客需要SEO优化一下,文章页没有收录的原因,是因为百度蜘蛛索引了日期页或TAG页,并且认为这两种页面与文章页的内容出现了重复,且日期页或TAG页应该比文章页更重要,所以只收录了这两种页面。
找到了大概的原因,才好对症下药。我在网上多方查找资料,学习前人的经验,采取了三项措施,目前取得了初步的成效。今天用百度site了一下,百度终于放出了以前收录的两个文章页面(见下图),其他更多文章页面能否放出?还有待于后期进一步观察。

下面就来介绍一下我所进行的三项改动,至于百度恢复对文章页的收录是哪一种做法所起的效果,我也不太清楚。
一、去掉了模板上的“标签”和“日历”,并且去掉了用prower主题自带模板页面功能设置的一个单独的标签云页面(tags)。在标签云页面里涵盖了“龙的传人”博客所使用过的所有标签。这样从源头上减少百度蜘蛛爬取并收录TAG页和日期页的机率。
二、在文件的模板文件header.php文件进行条件判断,识别各种页面后,再用meta标签分别引导百度蜘蛛和GOOGLE爬虫是否爬取和索引相关的页面。
三、使用robots.txt文件限制各种搜索引擎索引TAG和日期页、paged页等。robots.txt文件的内容是这样的(括号中是说明文字,使用时应该去掉):
User-agent:* (针对所有搜索引擎有效)
Disallow: /wp-
Disallow: /?tag= (不收录TAG页)
Disallow: /?cat= (不收录目录页)
Disallow: /?m= (不收录日期页)
Disallow: /?r=
Disallow: /?s=
Disallow: /?paged= (不收录博文列表分页)
Disallow: /?feed=
Disallow: /cgi-sys (不收录空间的默认页面)
Sitemap:http://www.lxlong.net/?page_id=1941 (网站地图,我给了三种形式的)
Sitemap: http://www.lxlong.net/sitemap.html
Sitemap: http://www.lxlong.net/sitemap_baidu.xml
个人感觉以上做法中,robots.txt内容的设置最为有效,不仅对于百度,即便是GOOGLE的收录也会因此而做出相应的调整,从而减少非文章页的收录,达到最优化的收录,增加博客的用户体验。robots.txt文件的写法参考了很多网友的写法,可能仍然还不够完善,有不合理之处,希望能够得到朋友们的帮助和指点。
本文地址:http://www.lxlong.net/archives/3976.html 本文标题:解决百度只收录tags页和日期页的方法
1条评论 ▼