当前位置:首页 > SEO教程 > 正文

如何分析蜘蛛日志?(网站蜘蛛日志分析教程)

作为一个SEO从业人员,学会蜘蛛日志分析是一项必备技能,我们可以通过对网站日志的分析,我们可以很好的判断我们的网站的健康程度,并且还可以看到蜘蛛抓取的记录以及用户的一些行为记录,分析网站是否处在健康的状态。

如何分析蜘蛛日志?(网站蜘蛛日志分析教程)  第1张

如何分析网站日志

220.181.108.183 - - [25/Jun/2020:06:21:25 +0800] "GET /article/53.html HTTP/1.1" 200 162 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"

以上是日志文件里的一段代码,现在跟大家一起来分析这段代码意思:

220.181.108.183:蜘蛛IP

[25/Jun/2020:06:21:25 +0800]:蜘蛛访问时间

GET /article/53.html HTTP/1.1:表示蜘蛛抓取的网页地址(GET表示服务器动作)

200:表示正常访问

162:表示162字节

后面的代码表示抓取系统,我们主要了解蜘蛛来抓取哪些页面与多久时间就可以,Baiduspider这个是百度蜘蛛的全名。

如何分析蜘蛛日志?(网站蜘蛛日志分析教程)  第2张

网站蜘蛛返回状态码解析

蜘蛛返回状态码,也就是上图的“蜘蛛返回状态码”,根据不同的返回状态码,我们可以分析出抓取成功、抓取未成功、是什么原因造成的等等信息,下面举出各类状态码所代表的意思!

200:代表搜索引擎蜘蛛访问成功;同时代表抓取成功。

404:代表页面无法访问;蜘蛛访问页面未找到资源。

410:代表请求的资源已永久删除,蜘蛛抓取资源被永久性删除。

301:代表页面跳转;表示蜘蛛抓取资源时,我们的链接进行了跳转。

403:状态码表示服务器拒绝请求。应该检查robots或者服务器访问权限。

500:(服务器内部错误) 服务器遇到错误,服务器很不稳定造成的。

Baiduspider:就是百度蜘蛛,针对的是百度搜索引擎的抓取

Googlebot:就是Googlebot蜘蛛,针对的是谷歌搜索引擎的抓取

Sogou:就是搜狗蜘蛛,针对的是搜狗搜索引擎的抓取

360Spider:就是360蜘蛛,针对的是360搜索引擎的抓取

通过网站蜘蛛日志分析,我们可以很好的诊断网站是否出现问题,比如大量蜘蛛访问造成打开速度缓慢,了解蜘蛛抓取频次、是否被关进沙盒、是否有异常抓取等。另外通过抓取量还可以进一步了解各个引擎蜘蛛的喜好,起到一定的辅助作用。

新站蜘蛛情况分析

收录时间不确定,但一周内一定收录首页,内页可能收录。

如何吸引蜘蛛:原创、不是所有页面都提交的好,优质页面重点提交。

如何养成好的蜘蛛住区习惯?

看一下蜘蛛配额,一般每天抓取数量较平均。其次网站服务器带宽的承受能力,页面质量和行业稀缺度。

更新频率尽量稳定,日志蜘蛛来的时间段一般是固定的。尽量在这蜘蛛来之前更新完或更新量多可以在蜘蛛来时更新,其他时间尽量少更。

蜘蛛怎么抓网站才健康?

稳定运行,蜘蛛频次数量差不多;抓取时间越短越好;抓取额度 来的次数是差不多固定的,根据额度可以更明确更新数量。

如何分析蜘蛛日志?(网站蜘蛛日志分析教程)  第3张

怎么分析蜘蛛?

(一)网站目录蜘蛛抓取的统计

通过网站日志的分析,可以很好的看出我们的哪些目录比较受蜘蛛的喜爱,蜘蛛经常抓取收录,并且给予的排名权重状况。并且我们可以通过这些数据能够发现很多问题,对于我们想要突出的栏目可以通过内部结构来进行指向,从而有效的增加栏目的权重和蜘蛛抓取的程度。对于那些我们不希望蜘蛛抓取的页面,也可以进行屏蔽。

(二)网站页面的抓取

通过日常的日志分析统计中,我们可以看出哪些网站页面比较受蜘蛛的喜爱,并且可以了解到蜘蛛在这些页面的抓取行为,例如说蜘蛛是否抓取了一些没有被收录价值的页面,或者重复的抓取了一些页面等,大家都知道这样会影响到我们网站其他页面的权重传递的。通过分析,我们可以屏蔽蜘蛛抓取这些没有价值的页面,也有效的提高了我们其他页面权重的传递,并且学习蜘蛛比较喜爱的页面优点来补充其他页面的不足。

(三)了解蜘蛛是否访问我们的页面以及访问页面的状态代码

很多朋友的网站主页快照经常不正常,网站发布的文章也经常不收录,面对这样的情况我们都会想蜘蛛有没有到我们的网站抓取。这时候我们也可以通过网站日志来看是否有蜘蛛IP的记录就可以了解蜘蛛是否来爬行我们的网站,从而判断是否是我们网站质量的原因导致不收录。并且也可以看出蜘蛛访问我们网站页面的状态代码,例如说301、503、403等,当出现这样情况的时候,我们尽早做处理,以免成为网站降权的隐患。

(四)了解蜘蛛抓取的时间段。

通过日常日志分析总结中,你会很奇妙的发现一件事,那就是蜘蛛会在每天的一个特定时间内在网站爬行抓取的很活跃,当我们了解到这样的情况,我们就可以再特定的时间去更新网站内容,这个可以更加有效的让蜘蛛抓取我们网站内容,从而达到一个秒收的效果。

发表评论