运维事件中心_运维管理_稳定性管理_开发与运维-阿里云

运维事件中心
运维事件中心是企业业务连续性的运营管理平台,提供丰富的监控集成、强大的报警降噪、可靠的通知、灵活的事件流转、基于ITIL的故障管理等功能,一站式管理、多端协同,帮助企业实现更实时的数字化管理、更快的故障响应、更短的故障时长、更连续的业务体验。

产品优势

多监控系统集成
支持14个常见监控系统集成,简单配置即可快速完成对接
丰富的报警降噪能力
支持横向抑制、纵向收敛,全面压制报警风暴,不再遗漏核心报警
大幅降低事务性操作
完善的事件分派、升级、通知机制,避免重复事务性操作,提升运维效率
阿里巴巴故障管理最佳实践输出
帮助云上企业构建故障管理体系,持续提升业务连续性

产品功能

丰富的监控系统集成及通知支持主流监控系统及通知渠道集成对接,从此无需在多个监控系统中反复切换,更高效的响应问题。
监控系统支持支持阿里云主流监控系统、主流开源监控系统、云厂商监控系统、商业监控系统等14个系统的集成对接。
监控报警对接通过webhook的方式,内置集成步骤,简易配置,即可完成报警的汇聚、收敛、通知、事件闭环跟进。
集成管理一键生成集成密钥,随时更新、禁用。
通知订阅支持支持钉钉、短信、电话、邮件等通知方式,关键报警通知不遗漏。
多维降噪,从此告别报警风暴横向抑制、纵向收敛,精准管控每个核心报警,更少的事务性操作。
单监控系统横向抑制单监控系统抑制降噪,降低无效重复报警信息干扰。
多监控系统纵向收敛多监控系统时间窗口内滑动降噪,所有异常报警归一化。
流转规则自定义自定义单监控系统、多监控系统不同降噪场景的报警流转规则。
事件全生命周期管理核心报警通过事件跟进到底,更好的协同处理;沉淀研发运维处理经验,形成知识体系,更好的复用。
事件管理base ITIL的事件管理能力,支持区分优先级下的事件分派、转交、处理、订阅、升级、完结等功能,每一个生产事件都将沉淀为企业过程资产。
事件协同每个事件均可协同处理,丰富的操作记录信息,提升企业事件处理效率。
服务管理支持按照服务(service)维度对事件进行归类管理、数字化度量。
事件升级支持对不同优先级事件,按照自定义的响应/完结升级策略,不遗漏关键事件的处理。
故障管理闭环事件影响恶化,将升级为故障,故障管理形成闭环,持续提升业务连续性。
故障管理阿里巴巴故障管理最佳实践经验输出,适配各业务场景,支持故障全流程管理。
故障过程跟进支持对故障处理过程进行协同跟进,包括故障通告、故障更新、初因分析、影响面收集、舆情统计、故障过程时间线等功能,为故障的深度复盘分析提供结构化数据支撑。
故障改进分析支持对故障进行深度剖析,包括根因结构化归类、监控发现、变更关联等;支持制定故障改进措施、明确故障责任人及团队,确保基于故障形成改进闭环。

应用场景

一站式运维事件管理
体系化故障闭环管理
报警、事件、故障一站式管理
满足各类监控场景下报警统一事件化管理需求,支持集成对接各监控系统,支持服务器自定义推送异常事件,对报警、事件、故障进行全流程一站式管理,提升企业运维效率。
能够解决
多源监控集成
支持多个常见监控系统集成,简单配置即可完成集成对接。
报警统一处理
所有报警进行集中降噪处理,抑制收敛,避免报警风暴。
事件闭环管理
对报警生成事件,进行全生命周期管理,不遗漏重大事件。
推荐搭配使用
故障管理闭环
基于阿里多年base ITIL实践经验沉淀的故障管理体系,满足企业重大故障的流程化、在线化管理需求,持续提升业务连续性。
能够解决
故障应急
支持故障全局应急通告,电话、短信、邮件、IM多种通知渠道,加快信息流转。
故障跟踪
支持对故障进展、故障影响面、舆情反馈、Timeline进行在线化管理、协同,提升故障处理效率。
故障复盘
基于最佳实践经验,沉淀了对故障进行深度复盘的结构化要求,形成了线上检查点,以产品的方式承载流程落地。
故障改进
支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务连续性形成改进。
推荐搭配使用

文档与工具