顺时SEO博客
顺时SEO自媒体博客专注于分享网站运营知识、SEO优化技术教程、自媒体头条等各类互联网自媒体IT运营笔记,也会记录一些学习笔记生活经验,致力于打造一个专业、简单、可信赖的自媒体博客网站。
作为一个SEO从业人员,学会蜘蛛日志分析是一项必备技能,我们可以通过对网站日志的分析,我们可以很好的判断我们的网站的健康程度,并且还可以看到蜘蛛抓取的记录以及用户的一些行为记录,分析网站是否处在健康的状态。
220.181.108.183 - - [25/Jun/2020:06:21:25 +0800] "GET /article/53.html HTTP/1.1" 200 162 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
以上是日志文件里的一段代码,现在跟大家一起来分析这段代码意思:
220.181.108.183:蜘蛛IP
[25/Jun/2020:06:21:25 +0800]:蜘蛛访问时间
GET /article/53.html HTTP/1.1:表示蜘蛛抓取的网页地址(GET表示服务器动作)
200:表示正常访问
162:表示162字节
后面的代码表示抓取系统,我们主要了解蜘蛛来抓取哪些页面与多久时间就可以,Baiduspider这个是百度蜘蛛的全名。
蜘蛛返回状态码,也就是上图的“蜘蛛返回状态码”,根据不同的返回状态码,我们可以分析出抓取成功、抓取未成功、是什么原因造成的等等信息,下面举出各类状态码所代表的意思!
200:代表搜索引擎蜘蛛访问成功;同时代表抓取成功。
404:代表页面无法访问;蜘蛛访问页面未找到资源。
410:代表请求的资源已永久删除,蜘蛛抓取资源被永久性删除。
301:代表页面跳转;表示蜘蛛抓取资源时,我们的链接进行了跳转。
403:状态码表示服务器拒绝请求。应该检查robots或者服务器访问权限。
500:(服务器内部错误) 服务器遇到错误,服务器很不稳定造成的。
Baiduspider:就是百度蜘蛛,针对的是百度搜索引擎的抓取
Googlebot:就是Googlebot蜘蛛,针对的是谷歌搜索引擎的抓取
Sogou:就是搜狗蜘蛛,针对的是搜狗搜索引擎的抓取
360Spider:就是360蜘蛛,针对的是360搜索引擎的抓取
通过网站蜘蛛日志分析,我们可以很好的诊断网站是否出现问题,比如大量蜘蛛访问造成打开速度缓慢,了解蜘蛛抓取频次、是否被关进沙盒、是否有异常抓取等。另外通过抓取量还可以进一步了解各个引擎蜘蛛的喜好,起到一定的辅助作用。
收录时间不确定,但一周内一定收录首页,内页可能收录。
如何吸引蜘蛛:原创、不是所有页面都提交的好,优质页面重点提交。
如何养成好的蜘蛛住区习惯?
看一下蜘蛛配额,一般每天抓取数量较平均。其次网站服务器带宽的承受能力,页面质量和行业稀缺度。
更新频率尽量稳定,日志蜘蛛来的时间段一般是固定的。尽量在这蜘蛛来之前更新完或更新量多可以在蜘蛛来时更新,其他时间尽量少更。
蜘蛛怎么抓网站才健康?
稳定运行,蜘蛛频次数量差不多;抓取时间越短越好;抓取额度 来的次数是差不多固定的,根据额度可以更明确更新数量。
(一)网站目录蜘蛛抓取的统计
通过网站日志的分析,可以很好的看出我们的哪些目录比较受蜘蛛的喜爱,蜘蛛经常抓取收录,并且给予的排名权重状况。并且我们可以通过这些数据能够发现很多问题,对于我们想要突出的栏目可以通过内部结构来进行指向,从而有效的增加栏目的权重和蜘蛛抓取的程度。对于那些我们不希望蜘蛛抓取的页面,也可以进行屏蔽。
(二)网站页面的抓取
通过日常的日志分析统计中,我们可以看出哪些网站页面比较受蜘蛛的喜爱,并且可以了解到蜘蛛在这些页面的抓取行为,例如说蜘蛛是否抓取了一些没有被收录价值的页面,或者重复的抓取了一些页面等,大家都知道这样会影响到我们网站其他页面的权重传递的。通过分析,我们可以屏蔽蜘蛛抓取这些没有价值的页面,也有效的提高了我们其他页面权重的传递,并且学习蜘蛛比较喜爱的页面优点来补充其他页面的不足。
(三)了解蜘蛛是否访问我们的页面以及访问页面的状态代码
很多朋友的网站主页快照经常不正常,网站发布的文章也经常不收录,面对这样的情况我们都会想蜘蛛有没有到我们的网站抓取。这时候我们也可以通过网站日志来看是否有蜘蛛IP的记录就可以了解蜘蛛是否来爬行我们的网站,从而判断是否是我们网站质量的原因导致不收录。并且也可以看出蜘蛛访问我们网站页面的状态代码,例如说301、503、403等,当出现这样情况的时候,我们尽早做处理,以免成为网站降权的隐患。
(四)了解蜘蛛抓取的时间段。
通过日常日志分析总结中,你会很奇妙的发现一件事,那就是蜘蛛会在每天的一个特定时间内在网站爬行抓取的很活跃,当我们了解到这样的情况,我们就可以再特定的时间去更新网站内容,这个可以更加有效的让蜘蛛抓取我们网站内容,从而达到一个秒收的效果。
声明:内容整理自网络,文章版权归原作者所有,旨在分享有价值的内容,文章如有侵权请联系本站删除,部分文章如未署名作者来源请联系我们及时备注,感谢您的支持。
本文链接:https://www.shunshiseo.com/seo/294.html
发表评论