为多语言应用配置故障注入

故障注入是一种模拟应用异常行为的技术,通过给应用注入特定故障,来检测该应用的消费者处理异常情况的能力,然后通过提升处理该异常情况能力的方式来提高系统的稳定性。本文介绍如何为多语言应用配置服务故障。创建故障注入规则 登录EDAS...

功能优势

灵活的流程编排 AHAS Chaos 将故障演练的环节分为了准备、注入、检查以及恢复四个阶段,每个阶段除了系统初始化完成的必要节点之外,您也可以根据需要添加所需的流程节点。AHAS Chaos 支持一次演练包含多个定义的故障场景,同时您可以定制...

应用管理

添加应用 登录终端访问控制系统控制台。在左侧导航栏单击应用管理。在应用管理页面单击添加应用。在添加应用页面按照以下子步骤完成添加应用的操作。上传文件和选择应用类型,可参考以下参数说明表格进行配置。参数 说明 模式 选择文件上传...

实例的节点故障处理机制

当节点发生故障后,系统会对故障节点进行检查与修复。节点故障期间实例的相关服务不可用。说明 单节点实例适用于测试、培训、非核心业务等场景,生产环境建议使用副本集实例或分片集群实例以保障服务的高可用性。副本集 图 1.副本集架构 ...

演练场景说明

网络类场景 网络故障场景包含网络延迟、网络丢包和篡改域名解析,网络故障系统运行过程中时常遇到的问题,所以需要提升系统在网络异常的情况下容错能力。Java Kubernetes类场景 场景名称 特性 虚拟机场景 故障演练支持的虚拟机场景。代码...

管理SQL Server集群

主机故障处理策略 主机发生故障系统的处理策略:自动替换主机:系统会自动替换故障主机。说明 如果故障主机是云盘主机,云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后自动...

演练概述

基于阿里巴巴多年业务的真实线上故障库的积累,AHAS故障演练模块为您预定义了丰富的测试任务...当故障演练自动结束、您主动终止或者演练中的任何环节出现异常后,系统都会进入恢复阶段,自动清除相应的故障,使故障演练对象恢复演练前的状态。

围绕混沌工程的平台实践

因此混沌工程是一门学科,它提供了基本的理论指导,而故障演练是混沌工程的具体实践,通过向目标系统注入真实可能发生的故障来考量系统的稳定性。混沌工程和AHAS Chaos AHAS Chaos是以混沌工程为理论指导的故障演练平台,目标是成为混沌...

什么是消息演练

各种中间组件会相继被引入系统,其中分布式消息服务更是系统中必不可少的一环,这些消息服务之前并没有实际在系统中经历过真实流量考验,很难发现一些其中隐患或缺陷,急需通过故障演练来评测高可用性。AHAS提供了强大且高灵活度的故障演练...

替换主机

当主机发生故障后,如果您创建专属集群MyBase时主机故障处理策略选择的是手动替换主机,则您可以通过手动替换主机来解除故障。前提条件 专属集群MyBase引擎的为MySQL,且主机存储类型为本地SSD盘。背景信息 当主机发生故障时,系统会通过...

产品简介

事件中心统一的报警、事件、故障任务流转处理事件中心是统一的任务流转中心,统一管理整个企业业务系统运行过程中的所有报警、事件、故障。管理系统历史的所有报警记录,报警消息第一时间通知订阅对象,帮助企业实时发现问题,规避风险;...

演练场景

故障演练是业务系统上线前必要的演练环节,旨在对应急预案的可行性,进一步完成应急预案,从而帮助提升产品、集群、机房的稳定性,减少故障的发生,提高故障应急效率,进而提升产品竞争力。一个完整的故障演练过程为 创建故障原子服务>...

ping不通云服务ECS(SAG-1000)

如果是静态路由接入,尝试通过交换机,能否ping通设备的每个接口IP,如果其中有无法ping通的接口,请参考设备和交换机之间的链路故障排除接口互联问题。如果是单机设备,观察设备机身的状态指示灯,确认右侧第2和第3个灯是否有红色的。...

故障演练快速入门

为验证系统的容错性和可恢复性等性能,您可以将合适的故障注入到系统中,观察系统的表现,从而识别系统中可能存在的问题并及时修复。本文以 CPU 满载演练为例,介绍如何使用故障演练功能。步骤一:安装探针 进入 AHAS 产品主页,开通 AHAS ...

ack-node-repairer

当Node Problem Detector(简称NPD)组件检测到节点上的故障并生成节点的事件(Event)或者Condition上报给集群时,ACK的自愈系统(ACK Node Repairer)会监听每个节点上的新故障事件,并根据配置对故障节点进行相应的修复操作。...

故障处理流程

当网关设备发生网络故障后,您可以先观察现象、收集信息,然后进行分析诊断,完成问题修复。故障处理流程图如下:SAG-100WM故障处理流程说明 通过SAG-100WM访问阿里云,发现故障,排查流程如下,详细步骤参见ping不通云服务(SAG-100WM):...

API概览

系统规则 系统规则的相关API如下表。API 描述 CreateSystemRule 调用CreateSystemRule接口创建系统规则。DeleteSystemRule 调用DeleteSystemRule接口删除系统规则。DisableSystemRule 调用DisableSystemRule接口关闭系统规则。...

什么是容器报警演练

不同于其他故障演练模块对系统注入真实故障,报警演练只会对集群的API Server投递事件,由事件触发报警链路,不会对系统造成真实故障。无侵入。无需在用户集群中安装探针以注入故障,所有事件投递都是通过API Server来进行网络请求。

应用监控概述

3D拓扑 3D拓扑图能立体展示应用、服务和主机的健康状况,以及应用的上下游依赖关系,帮助您快速定位诱发故障的服务、被故障影响的应用和关联的主机等,全方位地诊断故障根源,从而快速排除故障。捕获异常事务和慢事务 您可以进一步获取接口...

整机恢复

当ECS整机发生系统故障或者错误操作时,您可以通过备份点的克隆和恢复功能,实现应用版本回退。本文介绍整机恢复的相关操作。前提条件 注意 不支持CentOS 8及以上的CentOS系统整机恢复及系统盘恢复。已创建ECS整机备份。具体操作,请参见...

什么是ECS容灾

主系统和容灾系统部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性灾害导致的系统故障。详情请参见跨地域容灾。当生产站点因为不可抗力因素(比如火灾、地震)或者设备故障(软...

PTS压测流程

演练阶段:在演练排查阶段,您需要对系统进行故障演练,进而发现并验证系统问题,锻炼系统及相关人员的应急能力,阿里云提供了故障演练平台帮助您演练预案。更多信息,请参见故障演练概述。容灾阶段:在容灾防护阶段,您需要构建系统的容灾...

什么是故障

本文主要介绍什么是故障。定义在日常运营中,无论什么原因导致业务服务中断、服务品质下降或用户服务体验下降的现象,称为故障,但不包括用户侧环境或用户自身操作引起的问题。“用户体验下降”说明故障的核心要关注用户感受,可通过客服...

网络类场景

排除端口 无需注入网络延迟调用故障的端口,与本地服务端口和远程服务端口功能互斥。可以指定多个,使用逗号分隔,使用连接符表示范围。例如 80,8000-8080。远端服务 IP 指定演练对象访问的远端服务 IP。可以通过子网掩码来指定一个网段的 ...

替换主机

当主机发生故障后,如果您创建专属集群MyBase时主机故障处理策略选择的是手动替换主机,则您可以通过手动替换主机来解除故障。前提条件 专属集群MyBase引擎的为MySQL,且主机存储类型为本地SSD盘。背景信息 当主机发生故障时,系统会通过...

容器服务ACK集群故障排查

概述 本文主要介绍关于如何排查ACK集群出现的问题。详细信息 检查集群节点 首先要做的是查看集群中的节点状态,确认所有的Node节点都存在并且状态...参考文档 本文的排查方案参考了以下文档:对集群进行故障排除 适用于 容器服务Kubernetes版

步骤一:导入迁移源

excludes_linux.txt(Linux系统)数据盘配置文件:在系统盘的基础上以disk[磁盘索引编号]后缀命名,如rsync_excludes_win_disk1.txt(Windows系统)或rsync_excludes_linux_disk1.txt(Linux系统)不同操作系统的服务器排除不迁移的文件或...

API概览

GetProblemPreview 获取故障通知预览 UpdateProblemImprovement 更新故障复盘改进详情 CancelProblem 取消故障 CreateProblemSubtotal 故障新增备注小计 FinishProblem 故障完结 ListProblemSubtotals 故障小计列表 RecoverProblem 故障...

如何管理事件

故障状态:处理中(升级时故障还在处理中),输入发现故障的时间、已恢复(升级时故障已恢复),输入故障生成的时间和故障恢复的时间;所属服务:升级故障所属的服务;影响服务:选择影响服务(可多选);进展摘要:处理人将事件升级为故障...

故障排查

如果您使用的系统是Windows,请执行以下命令开启守护进程:cd C:\Program Files\Docker\Docker DockerCli.exe-SwitchDaemon 如果您使用的系统是Linux,请执行以下命令开启守护进程:service docker restart 如何通过查看日志排查故障?...

微服务应用问题定位及故障演练

本文介绍微服务应用问题...发现故障并验证系统故障的告警时效性。架构图 参考链接 有关微服务应用问题定位及故障演练的详情,请参见微服务应用问题定位及故障演练最佳实践。icmsDocProps={'productMethod':'created','language':'zh-CN',};

步骤五:应用容灾

当被保护的服务器完成阿里云复制服务(AReS)安装并重启后,您就可以对受保护的服务器启动、停止容灾复制、故障切换、容灾演练等一系列的应用容灾操作。前提条件 已安装案例云复制服务。更多信息,请参见步骤四:安装阿里云复制服务。操作...

创建防护策略

防护策略 支持选择以下策略:推荐策略选择推荐策略后,默认选择以下配置:防护目录:全部目录(排除系统目录)是否排除系统目录:排除 排除指定目录:显示排除目录的列表 防护文件类型:全部文件类型 数据备份开始时间:00:00~03:00的任一...

同城多活架构实践

虽然故障最终得以解决,但故障导致的客户流失和企业口碑影响,对快速发展的业务造成不小的打击,迫使企业开始重视同城多活容灾能力的建设,以及定期做故障演练确保故障恢复能力的有效性。同城多活架构改造 基于MSHA多活容灾解决方案,您...

同城多活架构实践

虽然故障最终得以解决,但故障导致的客户流失和企业口碑影响,对快速发展的业务造成不小的打击,迫使企业开始重视同城多活容灾能力的建设,以及定期做故障演练确保故障恢复能力的有效性。同城多活架构改造 基于MSHA多活容灾解决方案,您...

开源ChaosBlade与商业化AHAS CHAOS故障演练对比

商业化AHAS CHAOS故障演练是阿里巴巴内部广泛使用的演练平台云上版本,具有灵活的流程编排、丰富的故障场景等特点,可以帮助企业提升分布式系统的容错能力,保障在企业上云或往云原生系统迁移过程中业务的连续性。AHAS CHAOS故障演练在...

修改DDH故障迁移配置

为了降低物理故障对您业务的影响,阿里云为您提供DDH故障迁移服务。本章节介绍在创建DDH后如何修改DDH故障迁移配置。背景信息 故障迁移服务开启后,当DDH因故障停机时,会自动迁移至健康的DDH。若您未开启DDH故障迁移服务,DDH发生故障停机...

跨可用区容灾

当生产站点因为不可抗力因素(比如火灾、地震)或者设备故障(软、硬件破坏)导致应用在短时间内无法恢复时,混合云容灾服务支持业务的跨可用区(Zone)的容灾能力,对整体的应用做容灾备份来应对单地区的故障,满足业务的RTO/RPO核心指标...

快速创建RDS专属集群实例

主机故障处理策略 主机故障时,系统的处理策略:自动替换主机:系统会自动替换故障主机。说明 如果故障主机是云盘主机,云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后再替换...

应用故障自动诊断

查看故障自动诊断报告 登录EDAS控制台。按需执行以下任一操作来进入应用的详情页面:在左侧导航栏选择资源管理>容器服务K8s集群(或资源管理>Serverless K8s集群),在顶部菜单栏选择地域并在页面上方选择微服务空间,在容器服务K8s...
< 1 2 3 4 ... 200 >
跳转至: GO

新品推荐

你可能感兴趣

热门推荐

新人福利专场 阿里云试用中心 企业支持计划 飞天会员助力企业低成本上云 智能财税30天免费试用 云解析DNS新用户首购低至36元/年起 ECS限时升级特惠6.5折