故障演练 Chaos
故障演练(Chaos)是云原生混沌工程平台,提供了大规模、低成本、影响可控、形式多样化的故障演练服务。Chaos 提供一站式架构分析、故障巡检、故障注入、系统稳态度量等功能,帮助用户增强分布式系统的容错性和可恢复性,帮助系统平稳上云。

产品优势

为什么要选择故障演练?
场景丰富
提供200+故障场景,覆盖基础设施到应用层,云服务等。 支持多种底层环境(物理机、虚拟机、容器)及操作系统(Linux、Windows)
简单易用
白屏化一键安装演练探针,系统0改造,资源占用率极低。灵活的流程编排,支持多个故障场景组合注入,支持节点自定义扩展
安全可控
获得信通院混沌工程平台先进级认证,提供专业的支持和服务。支持不同维度演练资源的权限管控,支持主子账号
高效可靠
基于演练经验库一键初始化演练流程,经验库来自于阿里多年实践积累。 一站式的演练方案,基于业务架构自动创建实施故障演练

产品功能

支持多环境多集群
多环境接入一键接入阿里云主机和Ack集群环境,也支持非阿里云的客户自建环境。
开源托管覆盖社区版ChaosBlade的所有场景能力,支持演练方案的无缝迁移;标准的混沌工程实验模型,兼容Litmus,ChaosMesh等开源工具。
多系统支持支持Linux2.X以上版本,支持Windows系统。
丰富的场景与演练方案
场景能力覆盖全演练场景从IaaS到SaaS层全覆盖,包含云服务器ECS、云数据库RDS等云设施场景库,Pod、Node等Kubernetes场景库,CPU、内存等操作系统场景库,调用延迟,异常,参数异常等进程内场景库。
演练经验库演练经验提供了配置好的演练模板,用户只需要填写机器等必要参数,就可以发起演练; 支持将已有演练流程转换为演练经验,降低配置成本。
一站式的演练方案提供容器演练、容灾演练、微服务演练、消息演练等一站式演练方案,无需关注演练配置细节,分析业务架构,自动生成演练流程。
稳态观测与爆炸半径控制
自动服务发现与架构感知自动识别各种云资源、容器资源及常用的第三方组件,对拓扑关系进行可视化展示; 基于应用拓扑视图的可视化演练。
监控告警演练过程实施监控系统资源,无缝对接Arms,云监控等监控系统,支持钉钉告警。
爆炸半径控制支持制定保护策略,自动触发并终止演练,避免系统因演练而引发的预期外故障;支持机器、应用、集群级别的范围选择;支持固定和随机范围注入。
完善的运维配套
细粒度的权限管控支持主子账号和Ram权限管控,覆盖机器、应用、演练等资源;支持根据不同的namespace来进行环境隔离,比如日常、预发、线上。
演练报表提供应用维度,机器资源维度,空间维度的演练报表。
集成扩展提供插件机制来灵活扩展演练流程;提供了丰富的演练API和多语言SDK供系统集成。

应用场景

检查分布式系统的健壮性
同城容灾演练
微服务强弱依赖验证
上云演练
检查分布式系统的健壮性
分布式系统日益复杂,不确定因素较传统架构明显增多,机器高负载、网络异常、磁盘 IO、节点调度等故障导致的问题呈增长趋势。
能够解决
系统有效性及容错能力验证
通过模拟资源负载,验证调度系统的有效性;模拟依赖的分布式存储不可用,验证系统的容错能力。
模拟测试
模拟调度节点不可用,测试调度任务是否自动迁移到可用节点;模拟主备节点故障,测试主备切换是否正常。
推荐搭配使用
同城容灾演练
当企业的业务迁移部署在阿里云上,可使用阿里云的云解析DNS(Alibaba Cloud DNS)、负载均衡SLB(Server Load Balancer)、关系型数据库RDS(Relational Database Service)等产品,搭建同地域多可用区容灾系统架构,实现同城容灾。通过AHAS同城容灾演练验证同城容灾架构设计的合理性与正确性。
能够解决
容灾架构引入评估
通过可控的演练方式来评估同城容灾对业务的必要性。
容灾架构验证
验证可用区断网情况下,容灾切换是否能顺利生效,对业务的影响范围。
容灾架构保险
通过常态化的容灾演练,保证容灾架构的可用性。
推荐搭配使用
微服务强弱依赖验证
随着分布式微服务的发展,系统正在变得越来越复杂,服务间也存在强弱依赖,以电商下单业务为例,从业务角度看,下单对积分是弱依赖,对库存是强依赖,从系统依赖上看,对数据库是强依赖,缓存是弱依赖,强弱依赖治理就是通过科学的手段持续稳定地得到应用间依赖关系、流量、强弱等数据,提前发现因为依赖问题可能导致的故障,避免依赖故障影响用户体验,积累数据持续推进系统稳定性提升。
能够解决
强弱依赖梳理
对于复杂的微服务系统,以应用维度自动梳理强弱依赖。
系统改造验收
系统重构之后,通过依赖验证保证强弱依赖未发生变化。
限流降级参考
对于弱依赖,相比较经验值来设定限流值可能带来的偏差,通过依赖验证来作为限流参考更加靠谱。
依赖容量评估
观察弱依赖不可用时候对系统整体容量影响,帮助业务决策。
推荐搭配使用
上云演练
企业上云后基础设施切换成了云,业务的稳定性强依赖云,一旦云服务出现故障,业务往往只能被动等待云厂商进行修复,缺乏有效的响应机制。通过云设施演练,可以有效的帮助客户提升云服务故障时候的应急能力。
能够解决
云资源梳理
以架构视图呈现云服务分布和业务应用依赖关系,帮助客户了解云服务状态。
模拟云资源故障
通过对接云服务API和云监控解决云服务故障难以模拟和无法控制爆炸半径的问题,Chaos支持ECS、RDS、阿里云Redis等多种对象。
推荐搭配使用

更多产品与服务

应用高可用服务 AHAS
应用高可用服务提供应用架构自动探测,故障注入式高可用能力评测和一键流控降级等功能,可以快速降低成本和提升应用可用性。
微服务引擎 MSE
微服务引擎是一个面向业界主流开源微服务生态的一站式微服务平台, 帮助微服务用户更稳定、更便捷、更低成本的使用开源微服务技术构建微服务体系。
容器服务 ACK
容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。
应用实时监控服务 ARMS
应用实时监控服务是一款应用性能管理产品,包含前端监控,应用监控和Prometheus监控三大子产品,能帮助你实现全栈式的性能监控和端到端的全链路追踪诊断, 让应用运维从未如此轻松高效。

文档与工具