针对常见故障场景,提供修复方案和处理建议。组件运维操作可视化:本地运维控制台新增以下几项白屏化运维操作 prometheus、loki、local:新增水平扩容、垂直扩容、PVC存储扩缩容 所有谐云中间件:新增水平扩容、垂直扩容、PVC存储扩缩容、...
应用场景 支付与转账 金融行业常见的支付、转账、账务等业务场景对于吞吐量有很高的要求。SOFAStack 分布式事务在各类大促中的优异表现证明了性能不会成为瓶颈。财富理财 这类场景中往往涉及的金额较大,所以对于产品的稳定性要求非常高。...
SAP高可用环境维护概述 SAP HANA高可用常见维护场景 1.主节点异常后处理 2.备节点异常后处理 3.主备节点停机维护 4.主节点停机维护 5.备节点停机维护 版本管理 版本 修订日期 变更类型 生效日期 1.0 2019/4/15 1.1 2019/7/30 1.更新故障...
撤销恢复:当操作故障恢复后却发现故障影响依旧未消除,可在 故障详情 页对【已恢复】的故障点击 撤销,将故障撤销已恢复状态,则故障返回 处理中 状态;复盘:故障恢复后,故障进入复盘阶段;在 故障详情 页对【已恢复】的故障点击 复盘 ...
ListProblemSubtotals 故障小计列表 RecoverProblem 故障恢复 ReplayProblem 故障复盘 RevokeProblemRecovery 故障撤销恢复 UpdateProblemNotice 更新故障通告 CreateProblemMeasure 创建故障改进措施 DeleteProblemMeasure 删除故障改进...
故障恢复 数据同步后切换 该故障恢复会停止保护组中被保护的实例,并且一直等到所有被保护的实例停止,再进行最后一轮数据同步,并等待数据同步完成后再启动恢复,服务不可用时间会大于“立即切换”的时间,主要用在生产站点正常工作等场景...
故障恢复 数据同步后切换 该故障恢复会停止保护组中被保护的实例,并且一直等到所有被保护的实例停止,再进行最后一轮数据同步,并等待数据同步完成后再启动恢复,服务不可用时间会大于“立即切换”的时间,主要用在生产站点正常工作等场景...
多活容灾 多活容灾MSHA(Multi-Site High Availability),是在阿⾥巴巴电商业务环境演进出来的多活容灾架构解决⽅案,可以将业务恢复和故障恢复解耦,有基于灵活的规则调度、跨域跨云管控、数据保护等能力,保障故障场景下的业务快速恢复...
本文主要介绍如何利用阿里云连续复制型容灾(CDR)服务,在本地虚拟机出现问题后把云上恢复出来的ECS回切到云下VMware环境中。前提条件 已部署CDR网关。更多信息,请参见 步骤三:部署CDR网关。已在被保护的Windows服务器上安装阿里云复制...
说明 基于MSHA流量监控或其他监控能力,确定业务稳态的监控指标,以便在故障发生时判断故障影响面以及在故障恢复后判断业务的实际恢复情况。演练预期如下:下单链路对订单应用是强依赖,强依赖故障会影响业务不可用。故障爆炸半径控制在...
反向复制将云上数据复制到线下环境,完成后单击 更多>故障恢复>故障恢复 启动线下已恢复服务器。相关操作 在 受保护服务器 页签,单击 设置可见列,选中所有或部分可见列选项后单击 确认,查看服务器ID、RPO、服务器状态等信息。在 操作 ...
自动化故障诊断和标准化应急预案快速定位并恢复故障,减少因故障引起的业务中断时间。故障演练主动检验应用高可用能力。支持蚂蚁产品双中心容灾切换,满足监管合规需求。技术风险防控内容库快速更新 阿里云、蚂蚁技术风险团队基于域内、...
背景信息 目前阿里云的混合云容灾服务对本地的数据中心做保护,并实现在本地虚拟机出现故障的时候以秒级RPO、分钟级RTO在阿里云ECS上进行恢复。但是对于完整的容灾场景,还要求在本地虚拟机出现问题后,可以选择将云上恢复出来的ECS回切到...
当生产站点因为不可抗力因素(比如机房火灾、断电)或者设备故障(软、硬件破坏)导致应用在短时间内无法恢复时,ECS容灾服务支持业务的跨可用区(Availability Zone)的容灾能力,对整体的应用做容灾备份来应对单地区的故障,满足业务的...
在杭州单元格B的商品应用发生故障的情况下,可使用MSHA切流功能将流量全部切换到另外的单元格,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换...
对于部署了多个容灾恢复网关的场景,一旦云上恢复完成,您可以立即删除所有容灾恢复网关,待故障恢复时再部署容灾恢复网关,做云上数据备份。您也可以保留一个恢复网关对云上恢复出来的服务器进行数据备份。
动作名称 actionTime String 2010-03-09 15:53:45 操作名称 userIsValid Long 1 用户是否合法 restoredProblemOperateLogs Array of 已恢复故障操作日志 已恢复故障操作日志 operator String 小王 操作人 userId Long 3232 用户id ...
时间线:展示故障的时间线记录,其中有7个节点必须完善详细内容,节点已用红星标注,包含:故障发生、故障发现、故障通告、业务响应、初因定位、恢复执行和故障恢复。节点记录和PC端故障时间线保持一致。复盘 按钮:故障恢复后,需进行故障...
在杭州单元发生故障的情况下,可以使用MSHA切流功能将受影响的用户流量切换到另外的单元,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换预期:将...
本文介绍NAT网关的常见故障及排查方案。流量不通类故障排查:ECS实例配置DNAT条目后无法被公网访问 VPC内新建交换机的ECS无法通过SNAT访问公网 VPC内存在多个NAT网关时,某交换机的ECS实例不能访问公网 访问流量异常类故障排查:客户端访问...
从提前发现系统风险、提升测试质量、完善风险预案、加强监控告警、提升故障应急效率等方面做到故障发生前有效预防,故障发生时及时应对,故障恢复后回归验证。基于故障本身打造分布式系统韧性,持续提升软件质量,增强团队对软件生产运行的...
并且整体设备运维缺乏高效易用的解决方案,运维效率低,出现故障恢复时间长,影响教学的进度。客户痛点 学习门槛高,线下准备环境浪费时间,复杂软件安装繁琐,远程指导人力消耗大 学习效果差,教与练脱节,互动性差,缺少老师临场指导 线...
概念 描述 故障转移(Fail Over)即容灾恢复,指您的 IDC 应用出现故障时,在阿里云上恢复应用的过程。故障恢复(Fail Back)当您的 IDC 内的环境恢复以后,将应用数据迁回自有 IDC 恢复应用运行的过程。RPO Recovery Point Objective(数据...
Failback 故障恢复。ForcedFailover 故障切换。OpenService 开通服务。RegisterServers 添加受保护服务器。ReversedDisableReplication 停止反向复制。ReversedEnableReplication 启动反向复制。ReversedRegisterServer 反向注册。...
故障通告及更新 基于7x24监控值班工作特性,对于业务异常达到故障等级时,以用户定制的(语音、短信、IM)的方式在约定时间内将故障影响信息以及处理进展通知给对应的接收人/组,并持续更新直至故障结束。故障应急协同群 故障发生后,可以...
同城应用多活的架构如下图所示:同城应用多活对应用系统的代码侵入较小,基于灵活的流量调度和单元格间的流量路由,能做到故障场景下的业务快速恢复,实现业务恢复与故障恢复的解耦。异地场景的应用多活 同城近距离的容灾建设难以抵御地域...
数据的备份和恢复 故障时流量转移可以很好地避免地域级别故障造成业务中断,但此时故障地域的数据服务也可能同样不可用。为了让业务在备地域的应用启用期间也能正常运转,您需要根据自身的业务设计合适的方案,在非故障期间将数据从主地域...
故障状态:处理中(升级时故障还在处理中),输入发现故障的时间、已恢复(升级时故障已恢复),输入故障生成的时间和故障恢复的时间;所属服务:升级故障所属的 服务;影响服务:选择 影响服务(可多选);进展摘要:处理人将事件升级为...
当出现磁盘故障时,需要根据故障原因、故障影响程度、业务需求(是否接受数据丢失、是否允许服务较长时间不可用)、集群状态等综合考虑恢复采取的策略。如果业务优先保证服务可用,但允许丢失部分数据,则应考虑在可能会丢失数据的情况下,...
PROBLEM_UPDATE 通告类型 PROBLEM_NOTIFY:故障通告 PROBLEM_UPDATE:故障更新 PROBLEM_UPGRADE:故障升级 PROBLEM_DEGRADE:故障降级 PROBLEM_RECOVER:故障恢复 PROBLEM_REISSUE:故障补发 PROBLEM_CANCEL:故障取消 返回数据 名称 类型 ...
故障管理概述 故障管理是源于ITIL的一个概念,在IT企业或者互联网企业进行故障管理的目的是当生产环境出现重大宕机时尽快恢复正常的服务运营,将组件失败对业务所造成的负面影响降到最低,从而确保满足事先与业务客户之间所约定的服务级别...
NOTIFY:故障通告 PROBLEM_UPDATE:故障更新 PROBLEM_UPGRADE:故障升级 PROBLEM_DEGRADE:故障降级 PROBLEM_RECOVER:故障恢复 PROBLEM_REISSUE:故障补发 PROBLEM_CANCEL:故障取消 clientToken String Body 否 FD200FAE-E98F-496E-BFE6-...
全网故障恢复时间=故障发现时间+全网生效时间。说明 受限于拨测平台探点发生变化和全国各地运营商TTL缓存原因,如使用不同的拨测平台、以及在不同的测试时间,全网生效测试结果会发生变化。重要 标准版最快可在4分钟左右准确发现故障并切换...
全网故障恢复时间=故障发现时间+全网生效时间。说明 受限于拨测平台探点发生变化和全国各地运营商TTL缓存原因,如使用不同的拨测平台、以及在不同的测试时间,全网生效测试结果会发生变化。重要 故障发现时间:GTM可保障故障发现时间,目前...
版本配置 功能项 标准版 旗舰版 全网故障恢复时间=故障切换时间+全网生效时间 在健康检查间隔设置为1分钟,TTL60秒,连续失败次数3次的配置下,GTM能在4分钟左右准确发现故障并切换,故障切换后理论上60秒左右可以全网生效,但实际情况取决...
功能/版本 历史版本GTM标准版 新版GTM标准版 新版GTM旗舰版 全网故障恢复时间=故障切换时间+全网生效时间 在健康检查间隔设置为1分钟,TTL60秒,连续失败次数3次的配置下,GTM能在4分钟左右准确发现故障并切换,故障切换后理论上60秒左右...
故障恢复:支持故障切换和故障恢复功能。当控制器故障时,支持在线故障切换,业务连续性不受影响。阿里云混合云存储阵列将云存储的高性价比和可扩展性与本地数据中心架构相结合,帮助客户轻松实现数据在本地数据中心和公共云之间的无缝流动...
故障演练 为不断提升产品高可用能力,通过高可用管理平台的故障演练模块,设计并规划演练计划和恢复方案,继而在演练过程中不断发现、解决容灾预案存在的问题。以此,降低产品使用过程中故障发生概率,提高故障恢复效率,进而实现产品高...
故障升级 PROBLEM_DEGRADE:故障降级 PROBLEM_RECOVER:故障恢复 PROBLEM_REISSUE:故障补发 PROBLEM_CANCEL:故障取消 problemId Long Body 否 1312 故障Id clientToken String Body 否 4361a0e1-6747-4834-96ce-0c4840fd3812 幂等校验Id ...
RECOVER:故障恢复 PROBLEM_REISSUE:故障补发 PROBLEM_CANCEL:故障取消 clientToken String Body 否 4361a0e1-6747-4834-96ce-0c4840fd3812 幂等Token 返回数据 名称 类型 示例值 描述 requestId String B81E84B5-8FD1-45F3-969A-B5067...