跨可用区容灾

当生产站点因为不可抗力因素(比如火灾、地震)或者设备故障(软、硬件破坏)导致应用在短时间内无法恢复时,混合云容灾服务支持业务的跨可用区(Availability Zone)的容灾能力,对整体的应用做容灾备份来应对单地区的故障,满足业务的RTO...

安装探针概述

为您的主机等资源安装 应用高可用探针(即AHAS探针)后,即可使用AHAS架构感知和故障演练功能,能直观地看到应用对基础架构的依赖关系、组件间的依赖关系,以及对指定机器进行故障演练。接入 AHAS架构感知和故障演练可以接入云服务器ECS、...

DDH故障迁移

一台DDH基于一台指定的物理服务器,可能会因为故障而自动停机。为了降低物理故障对您业务的影响,阿里云为您提供DDH故障迁移服务。您可以在创建DDH时或创建DDH后配置DDH故障迁移。创建DDH时,在其他设置区域,选中宿主机故障时自动迁移。...

多应用服务场景如何实现批量切换流量

支付系统(应用02)的地址池配置查看:API系统(应用03)的地址池配置结果 ④ 开启健康检查 开启健康检查是指对地址池中的IP地址配置健康检查,开启后可实现实时监测应用服务的可用性状,并最终帮助企业实现自动故障隔离和自动故障切换的...

容灾预案

系统则会将故障地址池中的地址全部设置为 永远离线 的工作模式,地址池状态变为不可用,并按照您配置的访问策略自动执行切换。注意:永远离线是地址的一种工作模式,您可以参阅 地址池配置 文档来了解地址工作。6.回滚指容灾演练或流量切换...

主备切换

除了因系统故障自动进行主备切换外,您也可以手动进行主备切换,指定一个只读节点为新的主节点。适用于高可用演练,或者需要指定某个节点为主节点的场景。注意事项 PolarDB集群进行主备切换时,可能会出现30秒左右的闪断,请尽量在业务低峰...

主备切换

除了因系统故障自动进行主备切换外,您也可以手动进行主备切换,指定一个只读节点为新的主节点。适用于高可用演练,或者需要指定某个节点为主节点的场景。注意事项 PolarDB集群进行主备切换时,可能会出现30秒左右的闪断,请尽量在业务低峰...

读多写少型业务场景多活实践

在杭州单元发生故障的情况下,可以使用MSHA切流功能将受影响的用户流量切换到另外的单元,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换预期:将...

读多写少型业务场景多活实践

在杭州单元发生故障的情况下,可以使用MSHA切流功能将受影响的用户流量切换到另外的单元,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换预期:将...

应用总览

应用总览页面显示应用的关键指标、上下游依赖组件以及3D拓扑图,帮助您...借助3D拓扑图,您可以快速定位诱发故障的服务、被故障影响的应用和关联的主机等,全方位地诊断故障根源,从而快速排除故障。3D拓扑详细介绍,请参见应用监控3D拓扑图。

产品版本说明

应用高可用能力测评(现已更名为“故障演练”):根据架构感知模块捕捉到的架构数据主动制造故障,检验应用系统及其各组件在故障下的可用性表现,从而验证应用系统的高可用能力,提前暴露故障隐患,帮助您针对性地应对风险。应用高可用防护...

设备无法上电

问题现象 设备的系统指示灯SYS和电源指示灯都不亮。可能原因 未打开设备电源开关。设备电源线缆没有插牢。设备的外接电源有故障。设备的电源适配器有故障。解决方案 确认设备电源开关是否打开。确认设备电源线缆是否插牢。确认外接电源是否...

代码逻辑场景

本文列出了故障演练支持的代码逻辑场景。篡改Java方法返回值 修改Java指定方法的返回值,返回指定的值。参数名称 是否必选 默认值 参数说明 类名 是 无 完整的类名,包含包名。例如:com.alibaba.service.XxxService。如果模拟接口故障,需...

流水单据型业务场景多活实践

说明 基于MSHA流量监控或其他监控能力,确定业务稳态的监控指标,以便在故障发生时判断故障影响面以及在故障恢复后判断业务的实际恢复情况。演练预期如下:下单链路对订单应用是强依赖,强依赖故障会影响业务不可用。故障爆炸半径控制在...

流水单据型业务场景多活实践

说明 基于MSHA流量监控或其他监控能力,确定业务稳态的监控指标,以便在故障发生时判断故障影响面以及在故障恢复后判断业务的实际恢复情况。演练预期如下:下单链路对订单应用是强依赖,强依赖故障会影响业务不可用。故障爆炸半径控制在...

常见问题-FAQ

注意 标准版最快可在4分钟左右准确发现故障并切换故障发现时间:GTM可保障故障发现时间,目前默认的健康检查配置可以在故障的4分钟左右准确发现故障并切换;全网生效时间:GTM无法保障全网的最终生效时间,因受限于全国各地运营商的TTL缓存...

查看应用分组

您可以在应用分组中查看组内资源、监控视图、故障列表、报警历史、报警规则等监控数据,并执行相关操作。集中管理资源,便于您及时接收故障资源的报警通知,并及时处理故障。前提条件 请确保您已创建应用分组,操作方法请参见创建应用分组...

功能更新记录

本文介绍故障演练Chaos历次发布涉及的功能变更,帮助您了解故障演练的发布动态。2021年10月 功能名称 功能概述 支持资源包类型 支持地域 发布时间 微服务强弱依赖支持Dubbo 在应用强弱依赖治理的基础上,微服务强弱依赖治理功能,通过接入...

基本概念

集成中心名词概念说明监控源监控源表示上游监控系统,包括阿里云监控系统、开源监控系统、其他云厂商监控系统、业界商业化监控系统。监控源产生的告警是整个报警、事件、故障的源头。集成接入集成接入是将监控源跟运维事件中心数据打通的...

如何排查Java场景下故障注入不生效的问题

在对Java进程注入故障时,可能会出现故障注入失败的情况。为解决此类问题,在创建或编辑演练时,您可以在故障执行阶段选择开启Debug模式,并通过相关的日志信息来了解故障注入失败的原因。开启Debug模式 在查看目标演练的故障注入日志前,...

快速使用专属集群MyBase

主机故障处理策略 主机故障时,系统的处理策略:自动替换主机:系统会自动替换故障主机。说明 如果故障主机是云盘主机,云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后再替换...

公共云同城容灾解决方案

当企业的业务原先即已部署在阿里云上,可采用阿里云的公共云同城容灾解决方案,使用阿里云DNS、SLB等产品,搭建同地域多可用区容灾系统架构,实现同城容灾。公共云同城容灾适用场景 公共云同城灾备解决方案适用的灾备场景为:公共云形态:...

主备方案介绍

灾备方案 说明 单可用区高可用方案 主备节点部署在同一可用区中的不同机器上,当任一节点发生故障时,由高可用HA(High Availability)系统监控主备节点的健康状态并自动执行故障切换,避免单点故障引起的服务中断。同城容灾方案 主备节点...

混沌工程缓存实战系列-Redis

Redis是一个开源高性能的Key-Value存储系统,虽然Redis本身具备了非常高的可用性,但是在实际应用中也会随着系统业务的复杂性以及不合理的使用,而导致很多的问题。本文将讲述如何通过混沌工程来暴露可能存在的使用风险,提升缓存问题的...

混沌工程缓存实战系列-Redis

Redis是一个开源高性能的Key-Value存储系统,虽然Redis本身具备了非常高的可用性,但是在实际应用中也会随着系统业务的复杂性以及不合理的使用,而导致很多的问题。本文将讲述如何通过混沌工程来暴露可能存在的使用风险,提升缓存问题的...

同城容灾架构概述

非机房级故障(某个机房的单产品故障,如其中一个机房的ECS服务器损坏),可以通过对单产品的灾备设计来保障发生故障系统及时切换。应用设计相关参考标准 应用设计相关参考标准如下:无状态化。分布式集群设计、避免单点逻辑出现。幂等。...

创建OSS恢复任务

当OSS发生系统故障或者错误操作时,您可以通过OSS恢复任务恢复OSS至对应版本。本文介绍创建OSS恢复任务的操作方法。前提条件 已创建OSS备份计划并完成备份。具体操作,请参见创建OSS备份计划和使用OSS清单创建大数据量OSS备份计划。操作...

FAQs

注意 故障发现时间:GTM可保障故障发现时间,目前默认的健康检查配置可以在故障的4分钟左右准确发现故障并切换;DNS切换同步时间:GTM无法保障全网的最终生效时间,因受限于全国各地运营商的TTL缓存设置以及网络环境不同,所以全网生效时间...

产品架构

本文向您介绍故障演练的产品架构,以下简称故障演练为 AHAS Chaos。产品架构如下图所示:AHAS Agent AHAS Agent 安装在指定的目标机器上,用来执行服务端下发的故障注入命令以及采集演练相关的必要信息,比如 CPU、内存占用等,主要有以下...

网站耗资源(客户程序故障)常见问题

本文汇总了使用云虚拟主机出现网站耗资源(客户程序故障)时的常见问题。什么是网站耗资源(客户程序故障)?网站程序占用CPU及内存过多,是对资源的一种浪费。当您使用普通版共享云虚拟主机建站后,可能会因为网站程序编写不合理、代码...

故障详情

故障详情 调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求头 该接口使用公共请求头,无特殊请求头。请参见公共请求参数文档。请求语法 POST/problem/...

常用功能配置(精简版)

防护策略 支持选择以下策略:推荐策略选择推荐策略后,默认选择以下配置:防护目录:全部目录(排除系统目录)是否排除系统目录:排除 排除指定目录:显示排除目录的列表 防护文件类型:全部文件类型 数据备份开始时间:00:00~03:00的任一...

故障恢复

PROBLEM_UPDATE 通告类型 PROBLEM_NOTIFY:故障通告 PROBLEM_UPDATE:故障更新 PROBLEM_UPGRADE:故障升级 PROBLEM_DEGRADE:故障降级 PROBLEM_RECOVER:故障恢复 PROBLEM_REISSUE:故障补发 PROBLEM_CANCEL:故障取消 返回数据 名称 类型 ...

故障取消

故障取消 调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求头 该接口使用公共请求头,无特殊请求头。请参见公共请求参数文档。请求语法 POST/problem/...

接入主机

在普通主机上安装AHAS探针后,即可体验架构感知和故障演练功能,直观地查看应用对基础架构的依赖关系,组件间的依赖关系,以及对应用进行故障演练。本文介绍如何将探针接入主机,主机类型包括Linux和Windows。操作步骤 登录AHAS控制台,并...

灾备方案介绍

图 1.Redis容灾架构演进 灾备方案 灾备级别 说明 单可用区高可用方案★主备节点部署在同一可用区中的不同机器上,当任一节点发生故障时,由高可用HA(High Availability)系统自动执行故障切换,避免单点故障引起的服务中断。同城容灾方案...

使用可视化演练

登录AHAS控制台,在左侧导航栏选择故障演练>概览。在故障演练页面的左侧导航栏选择可视化演练。界面展示可视化演练的全局架构视图。左侧显示所有应用列表。列出了应用的机器数量和演练数量,并支持按名称搜索。您可通过应用名称来搜索...

故障撤销恢复

NOTIFY:故障通告 PROBLEM_UPDATE:故障更新 PROBLEM_UPGRADE:故障升级 PROBLEM_DEGRADE:故障降级 PROBLEM_RECOVER:故障恢复 PROBLEM_REISSUE:故障补发 PROBLEM_CANCEL:故障取消 clientToken String Body 否 FD200FAE-E98F-496E-BFE6-...

容灾恢复

解决了服务故障持续影响业务的问题,避免了雪崩效应,提高系统可用率。功能原理单机故障剔除会统计一个时间窗口内的调用次数和异常次数,并计算每个服务对应 IP 的异常率和该服务的平均异常率。当 IP 的异常率大于服务平均异常率,且达到...

服务管控和治理

您可以对应用开启服务熔断功能,使有故障的服务端及时返回错误,并释放系统资源,提高用户体验和系统性能。更多信息,请参见 服务熔断。故障注入您可以通过故障注入功能向测试应用注入故障,检测应用面对异常时的处理情况。您可以根据检测...
< 1 2 3 4 ... 200 >
跳转至: GO

新品推荐

你可能感兴趣

热门推荐

新人福利专场 阿里云试用中心 企业支持计划 飞天会员助力企业低成本上云 智能财税30天免费试用 云解析DNS新用户首购低至36元/年起 ECS限时升级特惠6.5折