快速实现基于Nginx的网站监控场景

ARMS提供成熟的商业模板,全面掌控网站运行状态

1. 基于ARMS的Nginx监控方案概述和准备

目前在监控领域上比较流行的数据处理方法有很多种,例如,搜索引擎,时间序列数据库,实时计算,甚至是大数据离线计算,等。
业务实时监控(ARMS)采用的是实时计算+列式存储。这种方案的优势是数据实时性高,而且对于固定的数据查询接口查询效率非常快。在Nginx的监控方案中,其架构概要如下所示, 蓝色部分为ARMS所集成的Nginx监控开箱即用的黑盒。

由于ARMS的分析是针对Nginx的accee.log日志,因此对Nginx日志有一定要求,需要用户在nginx.config中配置出打印内容,包括:“$upstream_response_time” “$request_time”等代表请求消耗时间的日志信息。如下例:
 log_format   main '$remote_addr - $remote_user [$time_local]  $status '
'"$request" $body_bytes_sent "$http_referer" '
'"$http_user_agent" "$http_x_forwarded_for"'
'"$upstream_response_time" "$request_time" "$ user_cookie_id"' ;

这样的话,打印出的日志,大致如下表所示。

58.211.119.29 144288 - [16/Mar/2017:21:47:07 +0800] "
POST http://arms.console.aliyun.com/api/query.json?
action=DataQueryAction&eventSubmitDoQueryData=1" 200 594 "
https://arms.console.aliyun.com/" "127.0.0.1:8080" "Mozilla/5.0 (Windows NT 5.1)
AppleWebKit/537.4 (KHTML, like Gecko) Chrome/22.0.1229.79 Safari/537.4" "
0.144" "0.144" "EX866MB1-Y70JO57WM37ST3HWDVFK3-JWPNH30J-Z"
58.211.119.29 148219 - [16/Mar/2017:21:47:08 +0800] "
POST http://arms.console.aliyun.com/api/query.json?action=DataQueryAction&eventSubmitDoQueryData=1"
200 583 "https://arms.console.aliyun.com/" "127.0.0.1:8080" "
Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.4 (KHTML, like Gecko) Chrome/22.0.1229.79 Safari/537.4"
"0.148" "0.148" "EX866MB1-Y70JO57WM37ST3HWDVFK3-JWPNH30J-Z"

查看详细要求

完成上述日志配置定制以后,即可开始在ARMS上进行配置。以下篇幅从ARMS数据集,报警,和交互大盘,三个部分进行配置概要描述。关于数据源如何添加到ARMS可参见文档,在此不赘述。

2. 基于ARMS的Nginx监控-数据集实现

在Nginx监控模板中,用户数据分为两类,一类是指标,相当于数据仓库中的Measure;一类是维度,相当于数据仓库中的Dimension。
对于Nginx监控,最常见的指标为以下几类指标:
1)页面的PV, UV
    • PV: 页面的PV通过对access.log中的每一条日志做count来统计;
    • UV: 通过日志中代表用户ID的对应的$cookieid来做count distinct来统计。对应的cookieid需要开发人员进行手动统计。
2)页面响应时间
    • 平均页面响应时间: 在ARMS中通过对$requesttime做sum操作来统计出totalrequesttime,然后在通过totalrequest_time / pv来得到某维度下的平均响应时间。
    • 最大响应时间: 则对单条日志request_time进行max统计。
3)页面流量
    • 平均页面流量和最大页面流量:针对 $bodybytessent来进行统计。统计方式和页面响应时间类似,不赘述。
对于Nginx监控,最常见的维度有以下几类:
1)页面URL
  • $request。用户可以针对特定URL进行访问统计,甚至可以在不同URL之间进行访问排行。
2)页面返回状态
  • $status。用户可以针对不同的返回值维度进行统计,如仅统计200返回值的正常页面访问情况,或是非200返回值的错误页面访问情况。
3)浏览器类型
  • 根据 $http_user_agent 统计出的用户的浏览器客户端,如Chrome, Sofari, IE, Firefox, 甚至Curl命令,等。用户可以根据此类维度统计客户端的分布情况。
4)用户ID
  • 根据 $cook_id 统计出的用户的使用习惯,如哪一类页面被哪一些用户经常访问,等。

对于ARMS的数据集设计,其实就是针对用户感兴趣的Nginx监控结果,进行各类维度的排列组合。

  • 例如,以页面URL维度,统计UV, PV,页面响应时间,则可以统计出不同页面的各自的UV, PV和页面响应时间,甚至根据例如PV进行TopN排行。

下图是一个数据集配置的例子,该数据集配置出两个维度: URL和Status (支持由URL下钻到Status的查询方式),分别统计两个指标:PV和UV。这样用户可以依次下钻页面路径和返回值来查询PV, UV情况。

下图是另个数据集配置的例子,该数据集配置出和上例相同但是顺序相反的两个维度: Status和URL (支持由Status下钻到URL的查询方式),分别统计两个指标:PV,平均响应时间,最高响应时间 。其中,平均调用时间是复合指标,由 总体调用时间 / PV 间接得出。

3. 基于ARMS的Nginx监控-报警实现

常见的Nginx报警有以下几种:
1)某类页面的响应时间过长
2)某类页面的错误率页面过高
使用ARMS的原生报警的一些特性天然支持Nginx监控报警的各种场景。以下举例。
3)支持某类指标的维度下钻遍历
例如检查(遍历)所有页面维度的响应时间是否超过100ms.
4)支持不同指标之间的复合计算
典型如错误码为5xx占总调用的占比,通过不同指标复合计算而得。
5)支持各种其他报警高级报警配置
包括最近N分钟同比,环比,最大,最小值比较,等。例如,最近5分钟同比PV下跌50%这种典型的场景。
以下例子结合以上三个特点,介绍了一种如何在ARMS定义”任意URL调用一分钟500返回占比超过10%”的报警定义例子,如下所示。

4. 基于ARMS的Nginx监控大盘配置

监控大盘一般有以下几个用途:
挂在作战室,全面掌控运行状态。
  • 工欲善其事必先利其器,性能测试时模拟大量负载需要工具帮忙,市面上可供使用的负载工具繁多,如何选择呢?首先我们要明白负载工具是帮助我们来模拟负载的,对于性能测试来说,工具并不是核心,分析、评估、找出性能问题才是核心,这些是主观因素;工具是客户因素,自然要降低其对结果的影响,所以工具选择时我们有几个方面要考虑。
用于实时查看,并下钻分析每个具体用户或网页的网站实际使用情况。

针对Nginx监控,ARMS可以基于类似用户维度,页面维度,IP维度,甚至地域维度,展示不同的数据。以展示用户总体UV, PV为例,假设对应的数据集为”整站UV PV”,则配置如下:

集成各类UV, PV,响应时间等统计的最终交互式大盘效果图如下:

5. 马上快速上手

以上各类Nginx监控场景,目前在ARMS上已有成熟商业模板支持,用户只需要在ARMS首页点击 “新建标准模板监控”,并选择Nginx高级模板,即可。帮助文档

业务实时监控(ARMS)现在免费

一体化实时监控解决方案

产品详情

端到端一体化实时监控

现在免费

快速接入

快速创建简单的监控任务

新手上路

其他解决方案推荐

1. 构建全渠道零售平台 | 淘宝架构,面对变化,唯快不破 立即查看
2. 消息队列(MQ)推出微消息队列(LMQ),针对移动互联网&物联网场景 立即查看
3. 如何高效处理 IOT 中的数据与消息 立即查看
4. Dubbo的商业化解决方案 | 分布式应用服务(EDAS)高效管理分布式应用、问题排查、故障定位立即查看
5. 面向万物互联的高性能时序数据库 HiTSDB 立即查看
6. 打造立体化监控体系的最佳实践 立即查看

全面了解企业级互联网架构和阿里云中间件产品

立即前往