百度索引量是每个站长都很关注的数据,索引量的多少以为这参与百度网页排名数据量的多少。今天早上在百度站长平台查看了一下索引数据,令我大吃一惊,索引量在一夜之间减少了588,由之前的1187变成了599。当然,在这个过程中,我在数据统计后台看到的百度来路流量并没有减少的迹象。按照百度官方的说法,这种情况站长不用太在意。
在向下探讨之前,先来看几个基础知识。
百度索引量是什么?百度的索引量是百度蜘蛛抓取网站的页面数;
百度索引量和收录量的区别?百度索引是百度蜘蛛抓取网页内容建立的搜索候选页面,这些候选页面是未来增加网站收录和更新网站页面快照必须要有的。百度索引量在百度站长平台后台查询,收录量直接使用site:(域名)
为什么索引量会大幅度下滑,这个问题朱海涛并不专业。看过站长社区版主老吕的一篇文章,分析的相当详细。对比了下,唯一的可能性就是robots.txt文件。前几天我在robots.txt文件总增加了一句"Disallow: /*?*",禁止收录一切包含问号的链接,来屏蔽动态链接。
除此之外,空间服务商还在.htaccess文件中增加一句代码 "deny from 220.181.158.218".空间上设置这句代码是防止网站恶意流量的。我查询了下,这个ip地址对应有可能是百度蜘蛛,不知道空间商在帮助我屏蔽恶意访问流量的时候是否有考虑到这方面的因素。
不管怎样,保险起见,还是需要去站长反馈中心去反馈下问题。站长反馈的时候注意描述清楚,并且截图说明问题。百度站长平台申诉反馈地址: http://zhanzhang.baidu.com/feedback
下面是百度站长平台社区版主老吕的文章,详细说明了索引量为什么会下降的原因,并且给出了解决方法,值得每个站长认真的阅读一遍。
索引量是流量的基础,索引量数据的每一个变动都拨动着站长敏感的神经,“索引量下降之后该如何着手分析”一直是各位讨论的热门话题。这次站长社区版主老吕又拔刀相助了,看看史上最全的百度索引量下降原因分析及解决方案吧
一、百度索引下降分析简图
二、导致百度索引量下降的常见原因——网站方原因
1、内容数据所在的网址url未规范统一
【自己站点url规范统一】
多域名都可以200状态正常访问网页内容;一域名下出现多种url形式可以访问相同内容,如大小写url、url规则变更等。
解决:选择主域名(或主url),其他域名下的所有url都301重定向到主域名(或主url),并站长工具提交域名改版(或目录url改版)
【外部平台使用己站数据】
A、市场合作,站点数据调用到其他平台上;内容主动外发,推广人员完整转发自有内容到高质量平台——这两个原因都有可能导致搜索引擎收录了外部平台的内容而拒绝了原网站内容
解决:使用站长平台链接提交工具的主动推送功能,及时提交网站新出现的链接,延迟将内容调用到其他平台的时间;
B、被镜像,用户通过其他举办主体的域名或url直接可访问己方内容。
解决:关注域名解析安全和服务器安全;绑定唯一可解析的域名或唯一可访问的url;页面内容中链接使用绝对地址
2、站点受青睐度下降
【网页内容相关】
A、内容质量度下降
解决:提高内容质量度,详见百度站长学院相关内容;杜绝简单拷贝,多做整合信息。
B、更新量及频率下降
解决:稳定的更新频率,视内容发展情况,扩充编辑团队,生产更多新内容,让网站索引避免下降,持续增加。(当更新量及频率下降明显,那么配额就会下降,首先表现抓取频次下降,导致索引量下降)
C、时效性信息消失
解决:时效性的信息,大部分一般在数据库不会长期保留,所以需要持续挖掘新的时效信息点,整合相关内容。
D、部分区域出现不良信息
解决:杜绝大量外链软文、恶劣弹窗广告、非法敏感类信息、专门针对搜索引擎作弊的内容等
【触犯惩罚算法】
解决:关注站长工具消息和百度网页搜索动态。按官方公告说明来整改站点,并进行反馈,然后等待算法更新。
【特型url不被信任】
解决:定制各类url的索引查询规则;定位索引量下降的特型url;排查该类url当日、前一日、本周、历史索引情况;找出未被入库的数据可能存在的问题;处理完后,增强该类url与百度数据沟通(途径有sitemap、批量提交url、数据推送等)。
【站点被搜索引擎信任度下降】
A、非法投票嫌疑(链接工厂等)
解决:珍惜自己页面的投票权,对于劣质网页坚决不投票,尽量减少站点的导出链接。
B、主题变动(如从教育领域跨入医疗领域)
解决:将旧领域的网页进行死链处理后向百度进行提交,封禁相关旧url的被访问权,然后再上线新主题相关内容,加强对百度的数据提交
C、受牵连
相同ip下非法站点偏多,同一域名所有人举办的网站大都被惩罚且情况恶劣等
解决:离开恶邻,获取搜索引擎的各产品的相关反馈方式,请求给予解禁,等待恢复正常索引。
D、政策性原因
如香港主机、国外主机站点由于各种你懂的原因,稳定性可能较差
解决:国内主机备案,合法符合政策经营
3、网页模板相关
【主体内容区域对蜘蛛的限制】
解决:取消登陆查看信息等限制,让蜘蛛便捷畅快的“采集”到己站数据
【启用了对蜘蛛不友好的技术】
解决:对需要蜘蛛识别的内容,不要启用对蜘蛛不友好的技术来调用。
【响应式模板干扰蜘蛛识别页面类型(pc、移动)】
解决:提交特定的url对应关系(尽量parrten级);meta标记移动版本url及适合浏览的设备;自主适配;增强pc、移动不同模板源码标签的区分度,帮助百度识别页面类型
4、源码相关
【源码错误较严重,如编码错误、标签使用错误等;源码改动严重,蜘蛛“采集”数据后重新观察分析;某类url下的TD(网页title、description)变化,如变化比例大、变化页面量大,页面进行更改后会重走建索引库流程,如果页面质量达不到建索引库标准会从线上消失】
解决:校验源码,准确的源码是蜘蛛“采集”数据进行分析的基础;link内链结构、url地址形式、页面主题、页面各区域html标记等尽量维持改动前的情况;逐步、分期更换TD(网页title、description),结合页面主题、用户实际需求来制定合理的TD,不欺骗不误导用户。
5、已入库的url对蜘蛛状态有变化
【robots声明,禁止蜘蛛抓瓤
解决:查看百度站长工具robots及抓取情况。
【url规则变化,原有url无法访问】
解决:特别是linux和win服务器之间的数据迁移,可能会出现大小写url支持变化,确保各类url规则不变化。url必须重构的时候,做好旧新url301重定向,站长工具提交改版需求。
【提示错误页面】
解决:由于误删,则可以数据恢复,并维持url对应网页内容的更新变化,提高抓取频次。如果确定要删除,那么提交死链,删除死链后,再robots禁止,这种情况的索引下降无需担忧。
【被入侵】
解决:防止url对蜘蛛进行非法跳转操作;防止url对应的网页内容对蜘蛛出现内容大变化,特别是一些违法乱纪的内容
6、DNS、服务器问题
【DNS问题】
dns不稳定;dns不安全
解决:选择可靠的dns服务;沟通强调对蜘蛛的稳定性;防止dns解析到非正常ip;防止解析的网站ip频繁变动。防止dns管理漏洞,导致被恶意解析;防止dns解析挂靠在小代理等技术能力、管理规范、道德法律约束都欠缺的平台上。
【服务器问题】
A、可访问性差
解决:尽量让目标地区所有运营商来路的用户都能在3秒内打开网站,最佳1秒内;监控网站运行状态,合理设置目标地区的所有运营商监控节点及监控项目、监控频率
B、屏蔽百度ua或ip
解决:多利用百度站长工具,查看百度抓取网页的情况,可见
http://bbs.zhanzhang.baidu.com/thread-15392-1-3.html
C、防刷压力值设定
解决:将蜘蛛解析到专用空间;如出现访问陡增的ip,查看是否为蜘蛛再确定是否禁止访问。
三、导致百度索引量下降的常见原因——百度方原因
1、配额再分配
同类数据量接近索引分配总额,配额量再分配,有升的就会有降的
解决:超过竞品,争取高额分配。
2、数据异常错误
A、错误惩罚
应对某类作恶行为而新算法上线,但由于蝴蝶效应,导致部分站点被错误惩罚而清除大量索引。
解决:反馈百度方,请求解除惩罚。
B、地区性数据异常
部分地区数据抓取或查询异常,导致误判站点情况而清除相应索引数据或输出错误索引量,如百度dns系统升级事件。
解决:反馈百度方,由百度检查各地蜘蛛执行情况。
C、接口调用数据错误、数据丢失、数据备份衍生异常
解决:反馈百度方,由百度检查相关数据情况。
说了这么多,有的站长遇到百度索引量下降情况可能还是仍然不知道怎么办。最基础的做法是去百度站长平台查看下robots.txt的设置,然后分别抓取网站每个分类目录和二级域名的网页,查看是否抓取正常和验证robots.txt文件是否设置有误。
如果都没有问题,再检查下友情链接和外链数据。当然如果网站转载文章和抄袭文章过多或者原创质量过低,这样收录量和索引量下降是迟早的事了。此外,网站索引量下降未必是坏事,如果我们的网站存在大量重复网页,动态网页,和无效网页,这些网页都被百度索引带来的是副作用。
设置robots.txt文件(利用robots文件做SEO优化,让蜘蛛更好的抓取网站)必然会导致索引量的下降,这种情况下,索引量下降对我们网站是由好处的。