首先,让我们看看日志文件的基本知识,如何获得它们,以及我们如何处理日志并分析对我们网站的作用。
什么是日志文件?
日志文件是包含在Web服务器内的一个文件输出,它记录了服务器收到的任何请求。调查日志文件对于了解哪些资源在抓取一个网站是很有用的。
每当用户或爬虫访问一个网站时,都会有一堆记录被输入到日志文件中。日志文件存在于例如技术审计,错误处理和故障排除,但正如许多SEO会告诉你的那样,作为任何彻底和深入的SEO技术审计的一部分,它们也非常有用。单个页面加载为该页面的每个资源请求输入一行。因此,根据资源调用,这是日志得到的行数。如果使用浏览器缓存,一些资源可能会在初始加载后被加载到本地。
这背后的原因是因为日志文件为网站管理员提供了用户、机器人和爬虫与网站交互的真实记录。搜索控制台和第三方软件等套件无法提供与网站交互的实体的完整或准确的图片。
网站nginx日志的位置
access.log文件的位置应该在/ etc / nginx / nginx中定义。conf文件或服务器块中的站点配置文件。
日志文件的组成
日志文件的结构和各个组成部分取决于多种因素,包括有关服务器的类型和其他配置。
但是,在日志文件中可以发现一些共同的因素。通常情况下,您会期望看到以下内容。
客户端/访问者IP
时间戳
方法(GET/POST)
要求的URL
HTTP状态码
浏览器用户代理
日志文件的剖析一个日志文件的剖析。
(这是一个例子,实际的结构顺序可能会有所不同)
其他信息一般是,但不一定能得到,包括。
主机名
请求/客户IP
下载的字节数
从服务器到客户端加载资源所需的时间。
如何获得对日志文件的访问权?
如何访问日志文件完全取决于你的服务器是如何设置的。
如今最常见的获取访问日志的方式之一就是从CDN提供商那里获取。比如CloudFlare、CloudFront等。您需要从为您的内容/资源提供服务的服务器/服务和客户端之间最接近的端点获取日志。在许多情况下,这就是CDN。如果使用CDN,来自Web服务器的访问日志几乎什么都没有提供,因为只有在清除缓存的情况下,它才会得到点击。
在上面,你有Web服务器。最常见的三类Web服务器是Apache、NGINX、IIS。常见的CDN提供商有例如Cloudflare、Sucuri、Kinsta CDN、Netlify CDN和Amazon CloudFront。
如果你以前从未访问过你的服务器文件,那么获取它们可能会很困难。您还需要知道您要搜索的日志类型,如错误日志或访问日志。
关于如何访问每一种类型的服务器的详细解释是另一篇文章,但下面是三篇官方指南,介绍如何访问三种不同类型服务器上的日志文件。
分析日志文件有哪些难题?
由于获取服务器文件是一项繁琐的工作,对于那些缺乏经验或技术知识的人来说,获取服务器文件是一件非常困难的事情。
不过,除此之外,还有一些其他原因也会让人觉得获取日志文件很有挑战性。
例如,IIS服务器经常被遗留系统使用,当大公司与微软签订了长期的服务器合同时,就会出现这种情况。
这意味着,继承遗留系统的网站管理员可能需要重新学习旧软件的知识。
另一个问题是,如果你正在与客户合作,客户可能不理解或不了解日志文件的重要性,这意味着他们可能会犹豫是否要提供访问权限或自己获取它们。或者他们可能只是简单地禁用了日志,认为没有必要,这意味着没有历史数据。
而日志记录需要被启用。
相当多的时候,SEO将不得不通过无数的部门或利益相关者来获取或访问更多的技术信息或数据。
这些复杂的情况往往会使日志文件分析变得更加困难,让SEO感到沮丧,尽管这些问题与调查本身没有什么关系。
AWK常用查看日志命令
统计404
awk '$9==404' log-file | wc -l
grep '404'会出问题,如果你的URL里面有“404”,例如/news/20120404S12.html这样
再来个统计所有响应码数量的
awk '{a[$9]++}END{for(b in a) print b"\t"a[b]}' log-file
从爬虫日志分析中能获取的一些SEO信息
分析网站日志的作用
1.抓取页面量和流量的分配(一般抓得多的页面权重高,是否着陆合适的关键词)
2.是否有垃圾页面抓取(手机页,带参数的页面,个人profile,各种非200响应码等等)
3.抓取是否有断档,可能是服务器或者程序出了问题
4.抓取能覆盖到页面的比例是多少,链接是否有问题
5.网站遭到了攻击、非法盗链和不良请求等,通过分析原始访问日志能大概分析出端倪。