异常监控系统-异常监控系统文档介绍内容-阿里云

查看监控概览

工作组监控概览项目说明监控任务展示当前工作组监控任务总量和异常监控任务数量。监控链路展示当前工作组监控链路总量和异常监控链路数量。监控告警分组当前工作组已被监控任务关联的告警分组数量和异常告警分组数量。任务状态趋势...

查看监控概览

工作组监控概览项目说明监控任务展示当前工作组监控任务总量和异常监控任务数量。监控链路展示当前工作组监控链路总量和异常监控链路数量。监控告警分组当前工作组已被监控任务关联的告警分组数量和异常告警分组数量。任务状态趋势...

H5 性能

在右侧的 H5 性能页面上，选择应用平台、应用版本、查询时间范围后，单击 H5 性能分析或 JS 异常监控 标签查看相应的数据。如需导出分析报告，单击页面右上方的导出数据即可下载相应的 Excel 文件。H5 性能分析从页面加载时长、慢加载...

ack-sysom-monitor

组件介绍 SysOM（System Operation&Maintenance）是由龙蜥社区系统运维SIG 打造的一站式操作系统运维平台，帮助您在统一平台上实现主机管理、系统监控、异常诊断、日志审计、安全管控等复杂操作系统管理。ack-sysom-monitor作为SysOM监控...

查看数据报表

访问异常监控 访问异常监控 仪表盘用于展示日志服务的异常访问情况，包括今日请求总数、失败请求占比、限流错误、请求异常状态分布、超过写入限制Logstore、请求异常数、请求处理耗时趋势等图表。消费组监控消费组监控仪表盘用于展示消费...

消费-搭建监控系统

监控系统架构如何搭建监控系统 收集监控数据配置SLS的日志收集，确保日志收集到了日志服务。中间件使用API消费数据通过SDK的PullLog接口从日志服务批量消费日志数据，并且把数据同步到下游实时计算系统。搭建storm实时计算系统选择...

异常数据告警

注意事项云监控服务仅提供指标的异常监控和报警功能。如果您需要实时查看全链路详细通信数据，请参见观星台。配置RAM用户云监控权限如果RAM用户需要查看云监控指标，您需要为其配置以下权限。具体操作，请参见为RAM用户授权。权限名称 ...

如何排查设备SNMP监控异常？

SNMP未关联部署到设备网络监控->部署监控项页面查看当前异常监控项的部署范围，具体方法可参见部署监控项。可以参考最佳实践通过SNMP监控设备端口状态核对相关配置。设备端SNMP配置问题如果控制台显示设备监控的原始日志为Timeout，可...

Spring Boot应用如何快速接入Prometheus监控

最终目标通过将部署在Kubernetes集群中的Spring Boot应用接入到可观测监控 Prometheus 版，希望能够实现以下几点目标：监测系统的入口：Frontend服务是一个基于SpringMVC开发的入口应用，承接外部的客户流量，这里主要关注的是外部接口的...

Spring Boot应用如何快速接入Prometheus监控

最终目标通过将部署在Kubernetes集群中的Spring Boot应用接入到可观测监控 Prometheus 版，希望能够实现以下几点目标：监测系统的入口：Frontend服务是一个基于SpringMVC开发的入口应用，承接外部的客户流量，这里主要关注的是外部接口的...

创建智能阈值报警规则

如果资源的监控指标达到报警条件，云监控自动发送报警通知，帮助您及时得知异常监控数据并快速处理。前提条件请确保您已开通基础云监控的按量计费或开启试用中心的试用智能阈值。更多信息，请参见按量计费或试用智能阈值。使用限制 ...

移动性能监控简介

诊断迅速结合网络请求数据分析、页面加载性能、JS 异常监控等功能，可迅速进行业务故障排查，将问题根源定位的时间提升至秒级。应用场景网络性能问题定位通过网络全链路数据监控，及时发现网络问题，定位故障链路问题节点，辅助用户进行...

创建监控告警事件

页面告警平台+页面页面加载时长崩溃告警平台+版本闪退率、卡顿率、白屏率 H5 页面告警平台+版本 H5 页面加载时长、H5 页面慢加载占比、H5 页面 JS 错误率、H5 页面 JS 异常监控上报次数业务告警平台+版本+渠道 App 启动次数、App ...

监控与日志

监控指标阈值报警支持对全球加速资源的监控指标创建阈值报警规则，如果监控指标达到报警条件，云监控会自动发送报警通知，帮助您及时得知异常监控数据，并快速处理。如何创建阈值报警规则，请参见创建阈值报警规则。云资源配置审计配置...

创建报警规则

如果资源的监控指标达到报警条件，云监控自动发送报警通知，帮助您及时得知异常监控数据，并快速处理。操作步骤登录云监控控制台。在左侧导航栏，选择云资源监控>应用分组。在应用分组页签，单击目标应用分组名称链接。在目标应用分组...

监控与日志

监控指标阈值报警支持对 EIP 的监控指标创建阈值报警规则，如果监控指标达到报警条件，云监控会自动发送报警通知，帮助您及时得知异常监控数据，并快速处理。如何创建阈值报警规则，请参见创建阈值报警规则。云资源配置审计 EIP 已接入...

Java应用监控和诊断方案

基于ARMS的应用监控方案 ARMS提供的应用监控功能，脱胎于阿里巴巴内部的分布式跟踪与监控系统（内部称为“鹰眼系统”），可以在不修改任何现有代码的情况下帮助网站开发人员和运维人员解决上述问题。调用拓扑图您可以在ARMS中看到应用的...

创建报警规则

如果资源的监控指标达到报警条件，云监控自动发送报警通知，帮助您及时得知异常监控数据，并快速处理。操作步骤登录云监控控制台。在左侧导航栏，选择报警服务>报警规则。在报警规则页面，单击创建报警规则。在创建报警规则面板，...

使用API查询监控数据

大型企业内部通常有自建的运维监控系统，上云过程中会面临如何将云资源监控数据与已有系统集成的问题。下面本文将为您介绍如何通过云监控接口查询各产品监控数据，从而将阿里云的监控数据与现有系统进行集成。指标类监控数据查询的接口云...

如何使用Prometheus监控Nebula

每套完整的自建监控系统都需要安装并配置Prometheus、Grafana、AlertManager等，其过程复杂、实施周期长。缺少与阿里云ECS快速集成的服务发现（ServiceDiscovery）机制，因此无法根据ECS标签来灵活定义抓取Targets。如果自行实现类似功能，...

如何使用Prometheus监控Nebula

每套完整的自建监控系统都需要安装并配置Prometheus、Grafana、AlertManager等，其过程复杂、实施周期长。缺少与阿里云ECS快速集成的服务发现（ServiceDiscovery）机制，因此无法根据ECS标签来灵活定义抓取Targets。如果自行实现类似功能，...

如何使用Prometheus监控TiDB

每套完整的自建监控系统都需要安装并配置Prometheus、Grafana、AlertManager等，其过程复杂、实施周期长。缺少与阿里云ECS快速集成的服务发现（ServiceDiscovery）机制，因此无法根据ECS标签来灵活定义抓取Targets。如果自行实现类似功能，...

如何使用Prometheus监控TiDB

每套完整的自建监控系统都需要安装并配置Prometheus、Grafana、AlertManager等，其过程复杂、实施周期长。缺少与阿里云ECS快速集成的服务发现（ServiceDiscovery）机制，因此无法根据ECS标签来灵活定义抓取Targets。如果自行实现类似功能，...

排查Linux实例CPU资源使用率高达100%的异常问题

rpm-Vf/bin/ps rpm-Vf/usr/bin/top 系统异常情况下，显示类似如下。查看Linux实例的对外连接执行如下命令，查看当前实例是否连接到异常域名，如示例中的crypto-pool.fr。iftop-i[$Device]-n-P 注：[$Device]当前系统正在与外部连接使用的...

如何使用Prometheus监控Kafka

每套完整的自建监控系统都需要安装并配置Prometheus、Grafana、AlertManager等，其过程复杂、实施周期长。开源Kafka JMX Agent 在某些场景下占用CPU高，对自建Kafka业务有一定干扰。对于阿里云消息队列Kafka（简称阿里云Kafka），自建...

如何使用Prometheus监控Kafka

每套完整的自建监控系统都需要安装并配置Prometheus、Grafana、AlertManager等，其过程复杂、实施周期长。开源Kafka JMX Agent 在某些场景下占用CPU高，对自建Kafka业务有一定干扰。对于阿里云消息队列Kafka（简称阿里云Kafka），自建...

查看伸缩组内实例的监控指标

通过伸缩组监控功能，您可以查看伸缩组内所有ECS实例的监控指标，例如，CPU指标、内存指标、负载指标、系统磁盘指标以及网络指标等，有助于您了解一段时间内伸缩组的资源利用情况。背景信息本文仅适用于ECS类型的伸缩组，不同监控指标包含...

诊断项与诊断结果说明

实例操作系统异常 实例系统出现了内核错误（kernel panic）、OOM（Out of Memory）异常或内部宕机等故障。检查该实例的操作系统（Guest OS）内部是否存在内核panic、OOM异常或内部宕机等故障。这些故障可能是由于实例配置不当或用户空间的...

操作系统监控

云监控通过安装在阿里云主机（ECS实例）和非阿里云主机上的云监控插件，为您采集丰富的操作系统层面的监控指标，您可以为操作系统监控指标设置报警规则。当某个监控指标达到报警条件时，会给您发送报警通知，以便您及时关注其动态。前提...

Windows系统异常重启以及蓝屏的处理方法

本文介绍Windows系统异常重启以及蓝屏的处理方法。问题描述在Windows系统下，有时会遇到蓝屏（BSOD，Blue Screen of Death）情况。Windows操作系统在遇到异常的情况下，为了防止数据丢失，系统自动崩溃蓝屏，如果有配置内存转储文件...

如何通过阿里云注册集群和Prometheus...多云容器集群监控

Prometheus可有效监控系统层指标、应用层指标、业务层指标等，采集监控指标后进行存储，同时结合Grafana可实现监控指标的展示和告警等。Prometheus和Grafana结合的方案可有效进行容器集群监控指标采集、存储、展示、告警等，能够有效帮助...

如何通过阿里云注册集群和Prometheus...多云容器集群监控

Prometheus可有效监控系统层指标、应用层指标、业务层指标等，采集监控指标后进行存储，同时结合Grafana可实现监控指标的展示和告警等。Prometheus和Grafana结合的方案可有效进行容器集群监控指标采集、存储、展示、告警等，能够有效帮助...

离线核对

是否误报：误报：例如 SQL 错误、数据错误或系统异常等，导致与核对预期不符的情况。非误报：判定后确定是异常现象。是否资损：有资损：根据异常数据排查问题并分析原因，确定发生资金损失。无资损：未出现资金损失。异常原因描述：长度不...

诊断项与诊断结果说明

实例操作系统异常 实例操作系统出现了内核Panic、OOM异常或内部宕机等故障。检查该实例的操作系统（Guest OS）内部是否存在内核Panic、OOM异常或内部宕机等故障。此类故障可能是由于实例配置不当或用户空间的程序配置不当导致的，您可以...

插件概览

云监控的主机监控服务通过在主机上安装云监控插件，为您提供主机的系统监控服务。插件版本云监控插件共有三个版本，从前往后依次为Java、Go和C++版本，当前最新版本为C++版本。由于C++版本的云监控插件比Go和Java版本占用的CPU和内存资源...

设计原则

面向失败的架构设计原则众所周知，系统异常事件是不可避免的，如网络延迟、硬件故障、软件错误、突峰流量等，建议在系统设计阶段就要从这些异常事件引起的系统执行“失败”出发，提供冗余、隔离、降级、弹性等能力，旨在确保系统的高可用...

内核统一异常框架（UKFEF）

Alibaba Cloud Linux 3（内核版本 5.10.60-9.al8.x86_64 开始）增加了内核统一异常框架UKFEF（Unified Kernel Fault Event Framework），用于统计可能导致风险的系统异常事件，并以统一格式输出事件报告。本文主要介绍UKFEF所统计的事件、...

算法说明

算法简介下探分析算法检测异常事件发生时指标序列的各个维度的子序列的变化情况，监控子序列的真实值与预期值的偏离程度，偏离程度越高，该维度子序列越有可能是异常事件的根因。由于维度组合数量较多，下探分析算法使用一些启发式策略...

文件核对

是否误报：误报：例如 SQL 错误、数据错误或系统异常等，导致与核对预期不符的情况。非误报：判定后确定是异常现象。是否资损：有资损：根据异常数据排查问题并分析原因，确定发生资金损失。无资损：未出现资金损失。异常原因描述：长度不...

快速构建主机监控能力

主机监控是维护和管理IT系统的重中之重，您可以借助云监控快速构建主机监控能力。对于已安装云监控插件的阿里云主机（ECS实例），您可以通过主机监控以可视化的方式查看其监控数据，也可以通过一键报警为主机的关键指标快速设置报警规则...

异常监控系统

新品推荐