整机恢复

当ECS整机发生系统故障或者错误操作时,您可以通过备份点的克隆和恢复功能,实现应用版本回退。本文介绍整机恢复的相关操作。前提条件 注意 不支持CentOS 8及以上的CentOS系统整机恢复及系统盘恢复。已创建ECS整机备份。具体操作,请参见...

什么是全局流量管理?

⑤ 容灾预案:容灾预案可以帮助用户实现容灾演练,或发生故障时快速切换访问流量,包括创建容灾预案、执行/回滚等相关信息。扫码加入我们阿里云DNS客户沟通群(2 群)阿里云DNS客户沟通群(1 群)此群已满此群已满,请申请加入阿里云DNS...

演练场景说明

故障演练场景是演练任务的核心。AHAS提供基础资源类场景和Kubernetes类场景,帮助分布式系统提升容错性和可恢复性。每一个执行阶段的演练场景都对应一个恢复阶段的演练任务。恢复阶段的演练任务目的是清除故障演练的影响,使应用或服务恢复...

电源故障定位

您可以参考以下方法定位电源故障并进行处理流程。诊断流程 电源故障详细处理流程,如下图所示。处理步骤 测量输入电压。使用万用表测量输入电压,根据电源适配器的工作电压范围判断输入电压是否异常。插拔电源适配器。把电源适配器以及电源...

更新故障通告

故障升级 PROBLEM_DEGRADE:故障降级 PROBLEM_RECOVER:故障恢复 PROBLEM_REISSUE:故障补发 PROBLEM_CANCEL:故障取消 problemId Long Body 否 1312 故障Id clientToken String Body 否 4361a0e1-6747-4834-96ce-0c4840fd3812 幂等校验Id ...

什么是消息演练

单个或多个模块都可能会有不同类型的故障发生,导致模块不能正常运行,例如Producer无法发送消息,这种场景叫做消息的演练场景。需要注意的是演练场景仅是组件表象,其内部故障原因可能是多种多样的,需要进一步进行分析。参考文档 消息...

应急预案:专有云V3环境中AnalyticDB相关机器故障紧急...

1.概述 本文主要介绍在专有云V3环境中,AnalyticDB相关机器...2.问题描述 在专有云V3环境AnalyticDB相关机器发生故障,需要进行下线维修。3.解决方案 详情请参见以下KB文档。KB 123746 通用方案:专有云V3环境中AnalyticDB机器的RMA处理流程

强弱依赖治理概述

强弱依赖治理就是通过科学的手段持续稳定地得到应用间依赖关系、流量、强弱等数据,提前发现因为依赖问题可能导致的故障,避免依赖故障影响用户体验,积累数据持续推进系统稳定性提升。什么是强弱依赖?异常发生时,不影响核心业务流程,不...

应用场景

以此,降低产品使用过程中故障发生概率,提高故障恢复效率,进而实现产品高可用性的有效提升。机房级容灾同城双活同一个城市,建设两个机房环境,两地距离 50 km 以内,万兆光纤专线互连,业务应用层面可以两个机房同时提供业务服务,当...

功能更新记录

本文介绍故障演练Chaos历次发布涉及的功能变更,帮助您了解故障演练的发布动态。2021年9月 功能名称 功能概述 支持资源包类型 支持地域 发布时间 可视化演练 可视化演练是基于架构视图来控制爆炸半径,并通过可视化的交付方式,直接面向...

混合云解决方案

如果MASTER 宕机,发生故障转移,此时SLAVE如果要提供服务,日志读取器会等待镜像日志先同步,再做发布,但如果MASTER发生硬件故障,此时SLAVE需要打开一个跟踪标记1448,在镜像故障的情况下可以继续分发数据。说明 1448标记用于在事务...

配置设备级高可用

当主网关设备发生故障时,HA机制能够从备份的网关设备中选举一台设备成为新的主网关设备,用来承担数据流量,从而保障网络的可靠通信。动态HA功能无需配置虚IP地址,系统会主动帮您探测设备状态,在主网关设备故障时,自动帮您切换流量。...

如何排查Java场景下故障注入不生效的问题

在对Java进程注入故障时,可能会出现故障注入失败的情况。为解决此类问题,在创建或编辑演练时,您可以在故障执行阶段选择开启Debug模式,并通过相关的日志信息来了解故障注入失败的原因。开启Debug模式 在查看目标演练的故障注入日志前,...

更新故障时间线

码表:PROBLEM_KEY_NODE(逗号分隔)content String Body 否 故障分析 节点内容 time String Body 否 2021-01-08 10:10:10 发生时间 problemId Long Body 否 234 故障id clientToken String Body 否 c26f36de-1ec8-496a-a828-880676c5ef81 幂...

管理集群

主机故障处理策略 主机故障时,系统的处理策略:自动替换主机:系统会自动替换故障主机。说明 如果故障主机是云盘主机,云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后自动...

管理集群

主机故障处理策略 主机故障时,系统的处理策略:自动替换主机:系统会自动替换故障主机。说明 如果故障主机是云盘主机,云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后自动...

安装探针概述

为您的主机等资源安装 应用高可用探针(即AHAS探针)后,即可使用AHAS架构感知和故障演练功能,能直观地看到应用对基础架构的依赖关系、组件间的依赖关系,以及对指定机器进行故障演练。接入 AHAS架构感知和故障演练可以接入云服务器ECS、...

设备无法上电

设备的外接电源有故障。设备的电源适配器有故障。解决方案 确认设备电源开关是否打开。确认设备电源线缆是否插牢。确认外接电源是否有故障。更换其它可以正常供电的外接电源,如果设备可以正常上电,则可以确认是设备的外接电源有故障。...

演练原子操作

故障演练原子操作指最小单元的故障。在 故障演练>演练原子操作 页面中,展示了平台上可用于故障演练的原子服务。可根据原子服务状态分类,查看当前环境中的故障原子操作信息,包括原子操作名称、操作编码、添加时间、状态、被引用次数等...

查看应用分组

您可以在应用分组中查看组内资源、监控视图、故障列表、报警历史、报警规则等监控数据,并执行相关操作。集中管理资源,便于您及时接收故障资源的报警通知,并及时处理故障。前提条件 请确保您已创建应用分组,操作方法请参见创建应用分组...

微服务应用问题定位及故障演练

本文介绍微服务应用问题定位及故障演练的场景描述、解决问题、架构图及操作参考链接。场景描述 您微服务架构应用基于阿里云容器服务Kubernetes(ACK)部署,通过阿里云业务实时监控ARMS发现微服务应用的容错能力是否健壮、容器编排配置是否...

ReportInstancesStatus

取值范围:hardware-cpu-error:CPU故障 hardware-motherboard-error:主板故障 hardware-mem-error:内存故障 hardware-power-error:电源故障 hardware-disk-error:磁盘故障 hardware-networkcard-error:网卡故障 hardware-raidcard-...

开源ChaosBlade与商业化AHAS CHAOS故障演练对比

ChaosBlade是一款简单易用且功能强大的混沌实验实施工具,AHAS CHAOS故障演练是ChaosBlade的商业化产品。本文介绍AHAS CHAOS故障演练与开源ChaosBlade的能力对比。产品简介 开源ChaosBlade与商业化AHAS CHAOS故障演练的特点如下:开源...

逻辑复制槽故障转移(Logical Replication Slot ...

RDS PostgreSQL逻辑复制槽故障转移(Logical Replication Slot Failover)功能可以将所有的逻辑复制槽从主实例同步到备实例,从而实现逻辑复制槽的故障转移。前提条件 RDS PostgreSQL实例版本需满足以下条件:RDS PostgreSQL大版本 内核小...

管理MySQL集群

主机故障处理策略 主机故障时,系统的处理策略:自动替换主机:系统会自动替换故障主机。说明 如果故障主机是云盘主机,云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后自动...

网站耗资源(客户程序故障)常见问题

本文汇总了使用云虚拟主机出现网站耗资源(客户程序故障)时的常见问题。什么是网站耗资源(客户程序故障)?网站程序占用CPU及内存过多,是对资源的一种浪费。当您使用普通版共享云虚拟主机建站后,可能会因为网站程序编写不合理、代码...

教程概览

6、容灾预案:容灾预案可以帮助用户实现容灾演练,或发生故障时快速切换访问流量,包括创建容灾预案、执行/回滚等相关信息。7、日志信息:介绍全局流量管理运行状态的告警日志,包括:健康检查告警、健康检查恢复、地址池不可用、地址池恢复...

更新故障详情

更新故障详情 调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求头 该接口使用公共请求头,无特殊请求头。请参见公共请求参数文档。请求语法 POST/...

适用灾备场景

将企业的数据库通过混合云的架构,备份在云上,构成数据库的异地灾备,当本地数据库发生故障时,可将云上数据库的内容恢复至云下。混合云数据库灾备解决方案适用的灾备场景为:混合云形态:企业希望通过混合云的架构形态,将云上作为本地...

管理PostgreSQL集群

主机故障处理策略 主机故障时,系统的处理策略:自动替换主机:系统会自动替换故障主机。说明 如果故障主机是云盘主机,云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后再替换...

容灾恢复

集群中通常一个服务有多个服务提供者,其中部分服务提供者可能由于网络、配置、长时间 fullgc、线程池满、硬件故障等导致长连接还存活但是程序已经无法正常响应。单机故障剔除功能会将这部分异常的服务提供者进行降级,使客户端的请求更多...

安装故障演练探针

对指定机器进行演练时,需要在机器上面安装故障演练探针,探针的作用是下发故障演练执行命令。背景信息 一次完整的故障演练包括以下四个阶段:安装探针>创建演练>执行演练>停止演练 操作步骤 登录AHAS控制台。在左侧导航栏选择...

故障动态

PROBLEM_IN_REVIEW 完结 PROBLEM_REOPENED 取消 PROBLEM_CANCEL 更新故障通告 PROBLEM_UPDATE_NOTIFY 添加故障小计 PROBLEM_ADD_SUBTOTAL 更新故障 PROBLEM_UPDATE problemId Long 12312 故障Id problemName String 这是一个故障 故障名称 ...

故障演练快速入门

为验证系统的容错性和可恢复性等性能,您可以将合适的故障注入到系统中,观察系统的表现,从而识别系统中可能存在的问题并及时修复。本文以 CPU 满载演练为例,介绍如何使用故障演练功能。步骤一:安装探针 进入 AHAS 产品主页,开通 AHAS ...

如何规避OSS敏感信息泄露风险?

风险说明如果您将OSS bucket的私有文件开放为公共读写,则容易遭受攻击者入侵,导致敏感...注意:修改bucket权限可能会影响您的正常业务,为了防止发生故障,请务必在修复前仔细校对方案,确保无误后再实行。更多信息请参见Bucket权限控制。

执行演练

在执行故障演练过程中,您可以实时查看演练进度、每个演练活动的运行状态及结果,同时也能够随时结束演练,进行恢复阶段的活动,清除故障演练影响。背景信息 一次完整的故障演练包括以下四个阶段:安装探针>创建演练>执行演练>...

多节点部署

多节点的架构可用于保障集群的高可用,当系统发生故障时,可读写的主节点和只读节点之间会自动进行故障切换(Failover)。此外,通过PolarDB的数据库代理功能,可在这些节点的基础上实现读写分离等功能,具体可参见数据库代理。增加/删除...

服务管控和治理

服务治理服务治理包含服务限流、服务路由、服务鉴权、服务熔断、故障注入、故障隔离、透明劫持、服务拓扑和实时监控相关服务治理。服务限流在高并发场景下,为保证在现有资源条件下服务正常运行,您可以使用服务限流让请求和并发在应用可...

系统事件概述

特指因探测到更新维护、违规操作、系统故障、软硬件故障、到期或欠费时,发生的重启、停止或者释放ECS实例等操作的事件。运维事件对比 为提升云服务器ECS的系统可靠性、性能和安全防护,阿里云对底层物理服务器进行日常维护,修复潜在的...

演练方案

演练方案指针对不同故障场景设计、编排的一套容灾演练计划。故障演练模块支持创建、编辑、发布、复用、删除、导出演练方案,以及查看演练记录,下面逐一进行操作说明。创建演练方案在左侧导航栏上,单击 故障演练>演练方案,进入故障...
< 1 2 3 4 ... 133 >
跳转至: GO

新品推荐

你可能感兴趣

热门推荐

新人福利专场 阿里云试用中心 企业支持计划 飞天会员助力企业低成本上云 智能财税30天免费试用 云解析DNS新用户首购低至36元/年起 ECS限时升级特惠6.5折