让网站不收录的影响因素都有哪些呢?SEO清洗网站爬虫日志

金坛金祥龙 次浏览

摘要:如上图,我发现公司人员和我反馈的网站不收录,具体的问题是在新闻页。3、分析网站的日志,看不收录的那个网站类目是不是有抓取,没抓取就是抓取问题,有抓取就不存在问题;6、要是还不能收录的话,就对当前类型的模版页面进行大改版,重构页面进行尝试。

案例分析

百度网站删除怎么找回_删除百度收录网站_删除百度网页

我刚加入环球网校的时候,他们的网站()已经在百度上快一年了,很少被收录。 当我应聘的时候,CEO知道我在SEO方面有一定的能力,所以他让我尽快解决网站不被收录的问题。

首先,我刚刚听到公司的人告诉我这个网站不包括在内。 我不知道在哪里以及为什么没有包含在内,所以我开始了数据收集和故障排除的工作。

网站按类型分类,分为频道页、列表页、专题页、聚合页和新闻页五类。 然后我和技术​​沟通,把五种类型的URL全部导出给我(新闻页面,因为很多考试相关的新闻都是时间敏感的,所以我只导出了30天的数据),然后我开始根据不同的数据进行采集和查询类别。 包含查询的最终结果如下:

删除百度收录网站_百度网站删除怎么找回_删除百度网页

如上图所示,我发现我和公司人员反馈的网站没有包含在内。 具体问题在新闻页面上。 全球网校的新闻是信息发布和考试材料发布。 这是一篇时效性很强的文章。 按理来说,这么大的网站应该是秒收的。

于是,我和相关人员询问了最近7天的网站日志。 技术给我的是原始的网站日志,其中既有爬虫数据,也有用户数据等,我只好自己去清理数据。 。

清理网站爬虫日志的SEO流程

百度网站删除怎么找回_删除百度收录网站_删除百度网页

1.我首先根据包含baiduspider的user-agent进行过滤,只保留包含baiduspider的数据,这样我就有了百度爬虫的数据;

2、然而,百度爬虫数据中也存在不少假爬虫。 按照IP反查的思路,我先记下所有百度蜘蛛的IP地址,然后去掉重复的;

3. 获取600个以上唯一且不重复的IP地址。 我用一个程序在这些IP地址上批量识别真假爬虫。 最终真实爬虫IP地址有82个;

4、然后我把第一步的所有爬虫数据都过滤掉,只保留真实IP地址的82个百度爬虫。 最终得到的数据就是真实的爬虫数据;

5、我在这个清理过的日志中查询了最近7天内发布的URL,最终发现所有新页面在发布后1分钟内就被爬虫抓取了。 你可以想象一下爬行是多么及时,爬行完成得有多快。 这篇文章将在第二天和第三天被抓取。

最后看到爬虫抓取的行为数据表现非常好,爬行应该不会有问题。

不过在分析日志之前,我还有一个需求,就是与技术、产品、运营同步。 我需要在一年前网站突然开始不被收录的大致时间点,每个部门都做了哪些改变。 就在晚上我分析完日志后,技术老大来找我说,他记得是因为网站被攻击,注入了大量垃圾数据,导致网站收录出现异常。

我可能知道问题就出在这里,但为了更全面地检查问题,我还是要求他们按要求同步了一些之前的修改给我。

第二天早上,我开始彻底调查导致网站被攻击的问题和技术,看看之前注入网站的垃圾邮件是否已经被清除。 最后确认垃圾信息已完全清除,并正确返回404状态码和404错误页面。

然后我就想是不是百度没有纠正我们的状态。 当我们受到攻击时,我们开始不正常地包括它。 毕竟我们网站的风险被检测出来了。 一年后还是一样。 肯定是百度的问题。 我通过百度的反馈中心详细解释了整个问题,百度的技术也在不断排查。 我等了一周没有收到回复。 其他部门也给了我一些之前的调整和改变,我也确保大家当时做的事情没有任何问题。

于是,我主动联系了百度站长平台的朋友,希望他们能够尽快处理,找出问题所在。

但最后得出的结论是百度没有发现任何问题。 据说几个部门的技术单独筛选了我的问题,没有发现问题。 嗯,百度的兄弟给足面子,帮我们跟进需求。 我还是要靠自己。 毕竟,这是我作为首席执行官的第一个任务,我必须处理好它。

我还去找我们的编辑询问并检查文章本身的质量。 大家都和几年前一样,一步步的发出信息,并没有什么变化。 时效性、可读性、需求满足度都可以得到保证。 究竟出了什么问题?

经过思考,我意识到问题的本质是从网站被攻击开始的。 如果百度真的没有回应,我会要求百度重新计算我的新闻页面,重新评估此类页面。 于是我就萌生了改造新闻页面的想法。

我开始和产品沟通,但他们很忙,我只好自己牵头,自己画原型开始工作。

通过页面的重新设计,丰富了内链的链接策略,还增加了很多广告定制场景。 经过20多天的努力,新页面上线了。

由于网站每天发布的新闻很多,大约有几百条,所以我写了一个程序来收集和查询它。 这个程序会每天自动帮我检查,然后以excel附件的形式发到我的邮箱里让我检查。

新版新闻版面上线后的第4天,采集率突然从每天1到5个增加到100多个,以前的采集率只有零点几,现在已经超过40%了。 又一天过去了。 82%,第二天是79%,第二天是85%。 就这样80%持续了一周,下周突然就到了97%,秒收了。 然后中间还有一些浮动的日子。 但总体而言,他们在95%左右。

至此,我想收录问题已经彻底解决了,很多编辑同事也早就知道了这一点。 现在几年过去了,我策划的新闻页面还在删除百度收录网站,而且收录状况一直不错。

下图是我刚刚查看的全球网校最后一天的收款情况:

删除百度收录网站_删除百度网页_百度网站删除怎么找回

时间是10分钟前和15分钟前。 因为如果你也想查一下的话,总数有数百个。

想法总结

百度网站删除怎么找回_删除百度收录网站_删除百度网页

1.锁定网站排除哪些类型的页面。 正如案件所言,我最终锁定了新闻页面;

2、思考拥有更改网站权限的人在网站未被收录期间做了什么删除百度收录网站,以及这些更改是否是网站未被收录的原因;

3、分析网站的日志,查看集合中包含的网站类别是否被爬取。 如果没有爬行,那就是爬行有问题。 如果爬取的话就没有问题;

4、当网站改动没有问题的时候,抓取也没有问题。 请在站长工具反馈中提供详细反馈;

5.在反馈的同时,您还可以对此类模板页面进行适当的调整,例如添加链接条目、增加网页丰富度、提高新闻页面原创比例、提高文章内容质量等。

6、如果仍然无法收录,请对当前类型的模板页面进行重大修改,尝试重构页面。

我工作的公司,已经帮助一家公司解决了不下15个网站不收录的问题,我一直用的就是这个思路。 过程中有什么不明白的地方可以在下方评论区提问,我会尽快回复~

现在我有 10,000 多个朋友关注我

删除百度收录网站_删除百度网页_百度网站删除怎么找回

删除百度收录网站_删除百度网页_百度网站删除怎么找回

删除百度收录网站_删除百度网页_百度网站删除怎么找回

百度网站删除怎么找回_删除百度网页_删除百度收录网站

百度网站删除怎么找回_删除百度网页_删除百度收录网站

删除百度收录网站_百度网站删除怎么找回_删除百度网页

百度网站删除怎么找回_删除百度收录网站_删除百度网页

删除百度网页_百度网站删除怎么找回_删除百度收录网站

百度网站删除怎么找回_删除百度网页_删除百度收录网站

百度网站删除怎么找回_删除百度网页_删除百度收录网站

删除百度收录网站_删除百度网页_百度网站删除怎么找回

删除百度网页_百度网站删除怎么找回_删除百度收录网站

删除百度收录网站_删除百度网页_百度网站删除怎么找回

删除百度收录网站_百度网站删除怎么找回_删除百度网页

删除百度收录网站_百度网站删除怎么找回_删除百度网页

删除百度网页_百度网站删除怎么找回_删除百度收录网站

删除百度网页_百度网站删除怎么找回_删除百度收录网站

随机内容