方案优势

故障探测

通过数据的时间序列分析和大规模数据的机器学习产生智能基线自动报警。

  • 不需要配置告警规则,降低人工维护成本
  • 减少传统基于静态阈值告警的误报漏报数量
智能调参

根据周期性趋势预测的变化,自动调节参数,不断提升预测模型的准确率和召回率。

  • 充分考虑业务整体起伏趋势
  • 可以应对业务局部趋势变化
自动进化

根据用户对报警结果的反馈,优化自动探测模型,提升故障报警的覆盖面和准确性。

  • 可以对异常点的准确性进行人工反馈
  • 根据人工标注反馈进行算法进化
方案介绍

阿里巴巴GOC成功实践

全球运行指挥中心 (Global Operations Center,下文简称 GOC) 是阿里巴巴集团基础架构事业群下属的事业部,是阿里经济体业务稳定运行的核心团队,负责生产系统全局性应急决策与指挥。GOC 团队通过为电商、金融、云计算等各项业务提供及时准确的告警、生产环境故障的全生命周期管理、重大故障时的快速切换以及线上问题的升级支持,在缩短系统灾难时长和提升消费者体验等方面做出了贡献。

阿里巴巴集团故障管理方案

  • 故障发现、应急启动、故障处理、故障复盘、持续改进
  • 负责所有业务指标异常发现、故障定级和故障通告
  • 根据不同业务范围和特征,明确不同的故障等级定义
  • 通过平台化产品进行故障恢复过程的信息流转和应急指挥
  • 全面推进业务连续性建设

阿里巴巴集团使用效果

  • 核心业务指标监控的正确率从40%提升到80%
  • 故障发现召回率从30%提高到80%
  • 每周为团队节省了 29 小时(因误报警而造成的)操作时间
  • 故障通告耗时从5分钟降低到1分钟以内
联系顾问

应用场景

提高故障告警准确率
通过大数据挖掘、机器学习和人工智能的算法模型,不断提升自研算法的告警准确率。
减少业务故障风险的概率
智能预测业务指标趋势,提前发现可能的异常变化并进行故障应急处理,降低业务故障风险的概率。
缩短故障恢复时间
充分利用机器学习和人工数据反馈的优势,自动定位故障原因,帮助客户迅速做出有效处理。
全程实现自动化模式
根据业务场景变化自动调整算法参数,实现自动进化,全程自动学习达到无人干预的全自动模式。