如何改善网站收录
1、先明确一些基本点,一个网页被收录与否,有两个因素:是否被爬虫爬过页面质量是否过关
2、评估:网站的页面层级关系,各个层级页面带来的SEO流量,各个层级页面的收录情况如何
3、问题立马凸显!1+2级目录页带来了大量的流量,收录率不是很好,优化收录的流量提升突破口在此!
4、分析:通过本文开始的有关收录的两个因素,我们需要检查一下,网页是否被爬虫爬行过,网页的质量是不是过关。1. 关于爬虫的情况,我们需要器皆阄诟分析日志,才能确定。于是我们从日志中拆分一系列数据看看页面是否真的被爬行过。2. 由于页面质量似乎是一个很难衡量的值,于是我们可以用相同模板下的:已被爬行的页面数量/已被爬行并且被收录页面数量来评估该模板页面质量对收录的影响大小。如果被爬的页面都被收录了,那至少说明这套页面的内容搜索引擎还算认可。
5、评估:(敏感信息用编号代替,均为真实数据)咸犴孜稍先看一下爬虫日志的情况,通过Shell脚本,我们可以分析出。目录总计被爬行的次数为13000次左右不重复的目录爬行次数为5500次左右频道A下的目录几乎被100%抓取过至少1次,频道B的目录抓取也不错,有70%被至少抓过一次。其余频道下的目录被抓取的覆盖率不到30%
6、然后,我们统计了一下被抓得最频繁的频道A和频道B,目录页的收录率
7、决策:通过上面的数据评估,我们已经得到了如下结论。页面质量并不是影响收录的原因。频道A,B的抓取量异常的高,通过调查了解,原来是首页上的目录页,显示的全是频道A下的目录页,首页又拥有全站最高的权重。频道B拥有比其他频道强大的外链资源,权重也非常高。除了A, B频道,其他频道的抓取情况不容乐观,抓取入口太少,太深,进而影响了收录情况。很明显,现在频道A从站内的角度来说太强大了,必须进行一些“劫富济贫”的运动来降低频道A的抓取量,转移到其他频道中去。同时,需要给爬虫提供更多的入口抓取频道页。
8、最后,就是执行