网站改版带来的404抓取错误解决实践
“Rachelxxx”通过精心收集,向本站投稿了2篇网站改版带来的404抓取错误解决实践,以下是小编为大家准备的网站改版带来的404抓取错误解决实践,希望对大家有帮助。
篇1:网站改版带来的404抓取错误解决实践
网站建设中一项重要的工作就是改版,每次改版肯定是往好的方面进行,因为每个阶段的定位不同,我们要网站所表现的企业形象也不同,而且一个好看大气的网站绝对能够在潜在客户心里提升我们公司的地位,但是多数的改版对于我们网站的SEO都会造成一定的影响,这里就需要我们对网站的情况掌握的非常熟悉之后,然后进行有效地控制,减少改版造成的404页面过多情况。
最近有一个新网站上线,因为是一年多的域名,之前网站和新站内容完全不同,网站结构也做了很大的调整,所以带来了很多的404错误抓取页面,当时并没有特别注意这个问题,后来持续更新了2个星期左右,发现快照都没有更新,发了一些简单的外链也没有作用,这个问题就引起了我的注意。下面具体的跟大家分析下自己的一些思路:
1、利用日志分析工具找到404错误抓取页面
日志分析工具利用最常用的光年日志分析工具就可以了,首先利用FTP下载好最近几天的网站LOG日志,当然,想更多的分析,那么多下载一段时间的LOG日志也可以,利用日志分析工具新建任务分析各个阶段的百度蜘蛛抓取情况,这里主要考虑百度抓取情况,因为建立这个分析工作的前提是快照停滞,收录为1。
这里建议大家分为三个时间段来分析:
A、分析最近一天的LOG日志,可以是今天的,但是最好是昨天的,因为昨天的会比较全,今天的你即使是晚上来分析也会有一部分时间没有统计到,
B、分析改版之后的LOG日志,因为这涉及到百度蜘蛛对于网站改版的一些判断,例如我们可以分析百度蜘蛛什么时候开始判断网站已经改版,或者什么时候已经放弃对于旧站URL的抓取等等。
C、改版前后抓取量的对比,分析改版对于百度蜘蛛的抓取量影响多大。
至于日志分析工作后面的分析工作都是一键式的,具体的分析思路有了之后,我们对照着进行分析,就会找到很多平时我们没有注意到的问题,例如下面出来改版造成的404页面,还有不少的页面也是404错误,我并没有意识到,例如下面的wp-login.php页面就是一个最典型的例子:
404错误抓取页面篇2:如何解决Google网站管理员工具的抓取错误
“抓取错误”是 Google网站管理员工具(Webmaster Tools)中最受欢迎的工具之一,它可以帮助你检查错误的链接,不仅仅是URL链接,还包行DNS解析失败、服务器链接、robots.txt 文件等问题,几乎所有网站都会出现抓取错误。
网 站站长工具将错误分为两类:网站错误(site errors)和链接地址错误(URL errors)。如果在一个网站上出现多个抓取错误,那么你的网站信任度会下降,甚至会影响到排名,当然这工具对于百度优化同样有效。那么应当如何解决 Google网站管理员工具的抓取错误呢。
通过Googlebot抓取的错误分类就看知道是什么导致抓取错误的原因了。
一、HTTP的错误
当一个网站上的网页(例如,当用户在浏览器中访问您的网页或Googlebot抓取页面时)到您的服务器发出请求,服务器返回HTTP状态码响应请求。
如果出现403状态,可以不用理睬,这表明是你的主机阻止了Googlebot抓取。对于所有HTTP状态码的列表文件,可以参考Google HTTP状态码帮助页面。
二、Sitemap中的错误
Sitemap错误往往会造成404错误页面,或在当前地图返回一个404错误页面,如果出现404错误页面请检查Sitemap中所有的链接,
Google会不断抓取你已经删除的Sitemap,这点很郁闷,但也有办法解决:确保旧的Sitemap已经在管理员工具中被删除。如果不想被抓取,确保旧Sitemap出现404或者重新定向到新的Sitemap。
来自Google员工Susan Moskwa解释道:
阻止Googlebot的爬行,最好的办法是使这些网址(例如旧的sitemaps)出现404,当我们看到一个URL多次出现404后,Googlebot会停止爬行。
三、重定向错误
有些错误是因为301从定向引起的,执行重定向后要注意什么:
1:确保他们返回到正确的HTTP状态码,
2:确保没有任何循环重定向。
3:确保重定向指向有效的网页,而不是404页,或其他错误页,如503(服务器错误)或403(禁止抓取)
4:确保重定向不是指向一个空页面。
四、404错误
404错误可能会出现在以下几个方面:
1:删除了网站上的网页;
2:改变了网页的名称;
4:链接到了一个不存在的页面;
5:其他网站链接到你网站上一个不存在的页面;
6:网站迁移到一个新的域名不完全匹配的网站。
五、受robots.txt限制
还有一个原因是robots.txt文件阻止了Googlebot的抓取,如果出现大量抓取错误,第一步应该检查robots.txt
六、软404错误
通 常情况下,当有人请求的页面不存在,服务器将返回一个404(未找到)错误。除了在响应请求的页面不存在返回404代码,服务器也将显示一个404页。 这可能是一个标准的“未找到文件”的消息,或旨在提供更多信息的用户,它可能是一个自定义页面。 页的内容是由服务器返回的HTTP响应完全无关。仅仅因为一个页面显示404文件未找到消息并不意味着它是一个404页。
七、超时
网站超时也是出现抓取错误的原因之一,如果出现超时现象,Googlebot会停止抓取。超时的错误类型有:
1:DNS超时,可以使用Nslookup 命令检测DNS,出现DNS超时最大的因素是域名服务商的DNS服务器不稳定。
2:网址超时,在某一个特定页面,而不是整个域的错误。
3:robots.txt超时,如果你网站有robots.txt,但服务器超时,Googlebot会假定该文件不存在。
4:动态网页的响应时间过长而造成网页载入时间过长。
【网站改版带来的404抓取错误解决实践】相关文章:






文档为doc格式