运维事件中心_运维管理_稳定性管理_开发与运维-阿里云

运维事件中心
运维事件中心是企业业务连续性的运营管理平台,提供实时的业务监控、丰富的监控/报警集成、强大的报警降噪、可靠的消息通知、灵活的事件流转、规范的变更管理、基于ITIL的故障管理等功能。一站式管理、多端协同、帮助企业实现更实时的数字化管理、更直观的业务可视化、更快的故障响应、更短的故障时长、更连续的业务体验。

产品优势

多监控系统集成
支持22个常见监控系统集成,简单配置即可快速完成对接
已集成列表
丰富的报警降噪能力
支持横向抑制、纵向收敛,全面压制报警风暴,不再遗漏核心报警
进行流转配置
业务指标可视
支持API、阿里云SLS等数据接入、支持对数据进行自定义清洗与指标展示
了解业务监控
基于移动协同的变更管理
支持自定义审批流、基于移动协同大幅度提高工作效率
了解变更管理
大幅提升运维效率
完善的事件流转机制,基于钉钉/企微的移动协同,大幅提升运维效率
了解事件能力
阿里巴巴稳定性最佳实践
帮助云上企业构建故障管理体系,持续提升业务连续性
了解故障管理

产品功能

丰富的监控系统集成及通知支持主流监控系统及通知渠道集成对接,从此无需在多个监控系统中反复切换,更高效的响应问题。
监控系统支持支持阿里云主流监控系统、主流开源监控系统、云厂商监控系统、商业监控系统等22个系统的集成对接。
监控报警对接通过webhook的方式,内置集成步骤,简易配置,即可完成报警的汇聚、收敛、通知、事件闭环跟进。
集成管理一键生成集成密钥,随时更新、禁用。
通知订阅支持支持钉钉、短信、电话、邮件等通知方式,关键报警通知不遗漏。
多维降噪,从此告别报警风暴横向抑制、纵向收敛,精准管控每个核心报警,更少的事务性操作。
单监控系统横向抑制单监控系统抑制降噪,降低无效重复报警信息干扰。
多监控系统纵向收敛多监控系统时间窗口内滑动降噪,所有异常报警归一化。
流转规则自定义自定义单监控系统、多监控系统不同降噪场景的报警流转规则。
事件全生命周期管理核心报警通过事件跟进到底,更好的协同处理;沉淀研发运维处理经验,形成知识体系,更好的复用。
事件管理base ITIL的事件管理能力,支持区分优先级下的事件分派、转交、处理、订阅、升级、完结等功能,每一个生产事件都将沉淀为企业过程资产。
事件协同每个事件均可协同处理,丰富的操作记录信息,提升企业事件处理效率。
服务管理支持按照服务(service)维度对事件进行归类管理、数字化度量。
事件升级支持对不同优先级事件,按照自定义的响应/完结升级策略,不遗漏关键事件的处理。
故障管理闭环事件影响恶化,将升级为故障,故障管理形成闭环,持续提升业务连续性。
故障管理阿里巴巴故障管理最佳实践经验输出,适配各业务场景,支持故障全流程管理。
故障过程跟进支持对故障处理过程进行协同跟进,包括故障通告、故障更新、初因分析、影响面收集、舆情统计、故障过程时间线等功能,为故障的深度复盘分析提供结构化数据支撑。
故障改进分析支持对故障进行深度剖析,包括根因结构化归类、监控发现、变更关联等;支持制定故障改进措施、明确故障责任人及团队,确保基于故障形成改进闭环。
便捷的移动协同基于移动协同,打通多端、多团队的协同,加速运维事件处理。
账号体系打通基于移动协同应用维蜜即可完成钉钉/企微账号体系的一键授权,研发无需开通RAM账号,即可基于移动端进行运维事件的处理。
事件协同处理研发运维高效协同,支持移动端操作管理运维事件,操作、状态实时同步至控制台。
业务指标可视化,从业务角度看运维支持对业务数据进行清洗与指标展示,同时支持告警配置与订阅
数据源支持支持API、阿里云SLS等数据源接入,其他数据源持续集成中。
数据清洗支持通过白屏拖拉拽的方式对原始业务数据进行过滤、拆分、计算以及转换等操作。
告警配置支持配置告警阈值,可设置多条告警规则“与、或”关系。支持固定阈值、同比、环比、求和等15+取值规则。支持设置生效时段。
指标可视化支持查看指标趋势与周期对比。
规范变更流程,减少线上问题支持自定义变更流程与变更系统等信息,支持移动端审批等。
审批流程自定义支持根据变更信息自定义审批流程,后续变更单会自定匹配审批流。
移动端变更审批支持自动通知审批人,审批人可在移动端进行审批操作。
变更历史支持查询所有变更相关的历史信息与数据

应用场景

一站式运维事件管理
体系化故障闭环管理
运维移动协同
业务指标可视化管理
标准化变更流程管理
报警、事件、故障一站式管理
满足各类监控场景下报警统一事件化管理需求,支持集成对接各监控系统,支持服务器自定义推送异常事件,对报警、事件、故障进行全流程一站式管理,提升企业运维效率。
能够解决
多源监控集成
支持多个常见监控系统集成,简单配置即可完成集成对接。
报警统一处理
所有报警进行集中降噪处理,抑制收敛,避免报警风暴。
事件闭环管理
对报警生成事件,进行全生命周期管理,不遗漏重大事件。
推荐搭配使用
故障管理闭环
基于阿里多年base ITIL实践经验沉淀的故障管理体系,满足企业重大故障的流程化、在线化管理需求,持续提升业务连续性。
能够解决
故障应急
支持故障全局应急通告,电话、短信、邮件、IM多种通知渠道,加快信息流转。
故障跟踪
支持对故障进展、故障影响面、舆情反馈、Timeline进行在线化管理、协同,提升故障处理效率。
故障复盘
基于最佳实践经验,沉淀了对故障进行深度复盘的结构化要求,形成了线上检查点,以产品的方式承载流程落地。
故障改进
支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务连续性形成改进。
推荐搭配使用
运维移动协同
基于钉钉/企微,进行运维问题的协同处理,提升信息流转效率,加速问题解决。
能够解决
多端信息互通
打通PC端(阿里云控制台)与协同端(钉钉/企微)之间的信息互通的渠道,方便用户在多端、多场景下完成运维工作,保障问题处理的及时性和可靠性。
移动协同
依托移动应用能力,支持在移动端对运维事件进行响应、转交、完结等操作,进一步提升运维协同效率。
账号体系互通
用户无需在阿里云开通RAM账号,基于微应用(维蜜)打通后,一键授权后系统即可自动打通PC与移动端的账号体系。
推荐搭配使用
业务数据接入、计算、展示、告警
满足通过不同的方式将业务指标接入运维事件中心,可对业务数据 进行数据清洗、计算。并进行展示与告警配置
能够解决
业务指标数据清洗
可通过业务监控对原始业务数据通过白屏化的方式进行数据清洗。 支持对数据过滤、拆分、计算、转换等。
业务指标告警配置
可配置告警阈值,可实时对异常的业务指标进行告警通知。 支持同比、环比、求和等15种方式,可设置生效时间。
多业务数据源集成
支持常见的业务数据存储系统集成,也支持API的方式直接推送数据
业务数据可视化
通过数据清洗后,可对业务数据进行规范化数据展示
推荐搭配使用
标准化变更流程管理
满足企业对变更流程、变更方案的管理与风险管控,实现变更管理规范化。支持自定义化的 审批流程配置,支持变更跟踪与移动端操作。提高线上安全与工作效率。
能够解决
变更管理规范化
通过变更管理可实现变更的规范化、标准化,降低变更风险。通过提前准备变更方案等,提高变更成功率与可靠性
变更移动协同
支持移动端审批、执行、查看变更详情等操作。支持变更单在不同阶段时通过移动消息通知到变更相关人员。提高工作与审批效率
变更数据分析
支持查看变更历史记录与变更日历,可进行数据分析或风险分析。所有变更可回溯。
推荐搭配使用
2021-08-24 新产品
阿里云运维管理产品—运维事件中心公测发布
查看详情
2022-08-25 新产品
运维事件中心商业化发布
查看详情
查看全部日志

文档与工具