同城多活架构实践

虽然故障最终得以解决,但故障导致的客户流失和企业口碑影响,对快速发展的业务造成不小的打击,迫使企业开始重视同城多活容灾能力的建设,以及定期做故障演练确保故障恢复能力的有效性。同城多活架构改造 基于MSHA多活容灾解决方案,您...

同城多活架构实践

虽然故障最终得以解决,但故障导致的客户流失和企业口碑影响,对快速发展的业务造成不小的打击,迫使企业开始重视同城多活容灾能力的建设,以及定期做故障演练确保故障恢复能力的有效性。同城多活架构改造 基于MSHA多活容灾解决方案,您...

什么是消息演练

消息演练概述 目前市面上有RocketMQ、Kafka、RabbitMQ等流行的消息中间件服务,消息演练功能将这些常见的中间件进行了统一抽离,为消息服务安排分配了精选后的演练最佳实践,您不需要自己去研究分析每种消息服务需要什么演练场景,仅需选择...

什么是故障演练

故障演练是一款遵循混沌工程实验原理并融合了阿里巴巴内部实践的产品,提供丰富故障场景,能够帮助分布式系统提升容错性和可恢复性。流程 故障演练建立了一套标准的演练流程,包含准备阶段、执行阶段、检查阶段和恢复阶段。通过四阶段的...

演练场景

故障演练是业务系统上线前必要的演练环节,旨在对应急预案的可行性,进一步完成应急预案,从而帮助提升产品、集群、机房的稳定性,减少故障的发生,提高故障应急效率,进而提升产品竞争力。一个完整的故障演练过程为 创建故障原子服务>...

故障详情

故障详情 调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求头 该接口使用公共请求头,无特殊请求头。请参见公共请求参数文档。请求语法 POST/problem/...

故障恢复

PROBLEM_UPDATE 通告类型 PROBLEM_NOTIFY:故障通告 PROBLEM_UPDATE:故障更新 PROBLEM_UPGRADE:故障升级 PROBLEM_DEGRADE:故障降级 PROBLEM_RECOVER:故障恢复 PROBLEM_REISSUE:故障补发 PROBLEM_CANCEL:故障取消 返回数据 名称 类型 ...

主备方案介绍

灾备方案 说明 单可用区高可用方案 主备节点部署在同一可用区中的不同机器上,当任一节点发生故障时,由高可用HA(High Availability)系统监控主备节点的健康状态并自动执行故障切换,避免单点故障引起的服务中断。同城容灾方案 主备节点...

故障取消

故障取消 调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求头 该接口使用公共请求头,无特殊请求头。请参见公共请求参数文档。请求语法 POST/problem/...

常见终端的空间流

概述 本文介绍使用云AP时,常见终端网卡的 数据子流(空间流)类型。详细信息 MIMO采用空间复用技术,将数据分割成多个平行的数据子流并同过多副天线同步传输。为了避免被切割的信号不一致,在接收端也采用多个天线同时接收,根据时间差的...

跨地域容灾

容灾系统部署在阿里云上两个地域中,当主系统发生故障时,业务系统切换到容灾系统。主系统和容灾系统部署在不同的地域,可靠性更高,有效避免了地域性灾害导致的系统故障。准备工作 在实现跨地域容灾之前,您需要选择一个不同于生产环境的...

跨可用区容灾

当生产站点因为不可抗力因素(比如火灾、地震)或者设备故障(软、硬件破坏)导致应用在短时间内无法恢复时,混合云容灾服务支持业务的跨可用区(Zone)的容灾能力,对整体的应用做容灾备份来应对单地区的故障,满足业务的RTO/RPO核心指标...

跨可用区容灾

当生产站点因为不可抗力因素(比如火灾、地震)或者设备故障(软、硬件破坏)导致应用在短时间内无法恢复时,混合云容灾服务支持业务的跨可用区(Availability Zone)的容灾能力,对整体的应用做容灾备份来应对单地区的故障,满足业务的RTO...

故障撤销恢复

NOTIFY:故障通告 PROBLEM_UPDATE:故障更新 PROBLEM_UPGRADE:故障升级 PROBLEM_DEGRADE:故障降级 PROBLEM_RECOVER:故障恢复 PROBLEM_REISSUE:故障补发 PROBLEM_CANCEL:故障取消 clientToken String Body 否 FD200FAE-E98F-496E-BFE6-...

ack-node-repairer

当Node Problem Detector(简称NPD)组件检测到节点上的故障并生成节点的事件(Event)或者Condition上报给集群时,ACK的自愈系统(ACK Node Repairer)会监听每个节点上的新故障事件,并根据配置对故障节点进行相应的修复操作。...

常见问题-FAQ

注意 标准版最快可在4分钟左右准确发现故障并切换故障发现时间:GTM可保障故障发现时间,目前默认的健康检查配置可以在故障的4分钟左右准确发现故障并切换;全网生效时间:GTM无法保障全网的最终生效时间,因受限于全国各地运营商的TTL缓存...

演练场景说明

故障演练场景是演练任务的核心。AHAS提供基础资源类场景和Kubernetes类场景,帮助分布式系统提升容错性和可恢复性。每一个执行阶段的演练场景都对应一个恢复阶段的演练任务。恢复阶段的演练任务目的是清除故障演练的影响,使应用或服务恢复...

电源故障定位

您可以参考以下方法定位电源故障并进行处理流程。诊断流程 电源故障详细处理流程,如下图所示。处理步骤 测量输入电压。使用万用表测量输入电压,根据电源适配器的工作电压范围判断输入电压是否异常。插拔电源适配器。把电源适配器以及电源...

云盘三副本技术

阿里云提供了一个扁平的线性存储空间,在内部会对线性地址进行切片,一个分片称为一个Chunk(中文含义为块)。每一个Chunk,阿里云都会复制成三个副本,并将这些副本按照一定的策略存放在存储集群中的不同数据节点上,保证数据的可靠性。对...

读多写少型业务场景多活实践

在杭州单元发生故障的情况下,可以使用MSHA切流功能将受影响的用户流量切换到另外的单元,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换预期:将...

读多写少型业务场景多活实践

在杭州单元发生故障的情况下,可以使用MSHA切流功能将受影响的用户流量切换到另外的单元,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换预期:将...

更新故障通告

故障升级 PROBLEM_DEGRADE:故障降级 PROBLEM_RECOVER:故障恢复 PROBLEM_REISSUE:故障补发 PROBLEM_CANCEL:故障取消 problemId Long Body 否 1312 故障Id clientToken String Body 否 4361a0e1-6747-4834-96ce-0c4840fd3812 幂等校验Id ...

跨地域容灾

容灾系统部署在阿里云的两个地域中,当主系统发生故障时,业务系统切换到容灾系统。主系统和容灾系统部署在不同的地域,提供容灾即服务,且RPO可以低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性灾害导致的系统故障...

故障类问题

本文介绍在使用DataV的过程中,可能出现的故障,及对应的解决方法。为什么打开界面看不到内容?可能是浏览器版本的问题,建议您使用Chrome50及以上版本。目前组件显示不正常,很多组件显示不全,如何解决?可能是登录状态丢失导致,请先...

流水单据型业务场景多活实践

说明 基于MSHA流量监控或其他监控能力,确定业务稳态的监控指标,以便在故障发生时判断故障影响面以及在故障恢复后判断业务的实际恢复情况。演练预期如下:下单链路对订单应用是强依赖,强依赖故障会影响业务不可用。故障爆炸半径控制在...

流水单据型业务场景多活实践

说明 基于MSHA流量监控或其他监控能力,确定业务稳态的监控指标,以便在故障发生时判断故障影响面以及在故障恢复后判断业务的实际恢复情况。演练预期如下:下单链路对订单应用是强依赖,强依赖故障会影响业务不可用。故障爆炸半径控制在...

诊断规则

通过故障诊断平台,运维人员可以将诊断过程、排查顺序进行图形化编排与设计,即故障诊断决策树。而后,在实际故障发生时,即可执行自动化、标准化的故障排查,并直接输出诊断报告,反馈诊断结果。故障诊断功能有效提升了故障排查效率,实现...

基础版实例

以下内容为AnalyticDB PostgreSQL版实例常见故障场景中基础版和高可用版的对比:恢复(Recovery)模式根据以往AnalyticDB PostgreSQL版运行情况,恢复模式为出现概率最大的故障场景,远大于另外两种场景,该场景下基础版恢复速度远高于高...

名词解释

下表列出了AnalyticDB PostgreSQL所涉及到的基本概念:名词 解释 MPP Massively Parallel Processing,一种分布式 Shared Nothing 计算架构,支持多个无共享的节点,执行全并行计算,计算性能随节点增加而线性提升。AnalyticDB for ...

功能更新记录

本文介绍故障演练Chaos历次发布涉及的功能变更,帮助您了解故障演练的发布动态。2021年9月 功能名称 功能概述 支持资源包类型 支持地域 发布时间 可视化演练 可视化演练是基于架构视图来控制爆炸半径,并通过可视化的交付方式,直接面向...

故障处理流程

当网关设备发生网络故障后,您可以先观察现象、收集信息,然后进行分析诊断,完成问题修复。故障处理流程图如下:SAG-100WM故障处理流程说明 通过SAG-100WM访问阿里云,发现故障,排查流程如下,详细步骤参见ping不通云服务(SAG-100WM):...

高可用版

采用Raft三节点的高可用架构,适合80%以上的用户场景,包括互联网基础资源监控,容器监控,业务运营监控分析,物联网设备远程实时监控,工业安全生产监控,生产质量评估和故障回溯。拓扑图 优势高可用性 利用分布式一致性协议(Raft)保障...

管理集群

主机故障处理策略 主机故障时,系统的处理策略:自动替换主机:系统会自动替换故障主机。说明 如果故障主机是云盘主机,云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后自动...

管理集群

主机故障处理策略 主机故障时,系统的处理策略:自动替换主机:系统会自动替换故障主机。说明 如果故障主机是云盘主机,云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后自动...

安装探针概述

为您的主机等资源安装 应用高可用探针(即AHAS探针)后,即可使用AHAS架构感知和故障演练功能,能直观地看到应用对基础架构的依赖关系、组件间的依赖关系,以及对指定机器进行故障演练。接入 AHAS架构感知和故障演练可以接入云服务器ECS、...

同城多活常见问题

本文介绍同城多活的常见问题以及解决方案。假设数据库主备,ECS双可用区部署,是否就是同城多活?和EDAS、MSE集群流量同可用区优先的差异和优势?消息是基于Shutdown机制实现多活么?数据库是两个机房各一个主备,还是主机房一主一备,备...

服务介绍

服务架构物联网无线连接服务智能卡物联网无线连接服务智能卡提供三网全网通版,一张单卡支持三大运营商网络,您无需担心单一网络通道故障后无法提供服务,也无需担心安装设备的地方运营商网络的情况,都会自动切网适配,可有效提升设备的...

设备无法上电

设备的外接电源有故障。设备的电源适配器有故障。解决方案 确认设备电源开关是否打开。确认设备电源线缆是否插牢。确认外接电源是否有故障。更换其它可以正常供电的外接电源,如果设备可以正常上电,则可以确认是设备的外接电源有故障。...

演练原子操作

故障演练原子操作指最小单元的故障。在 故障演练>演练原子操作 页面中,展示了平台上可用于故障演练的原子服务。可根据原子服务状态分类,查看当前环境中的故障原子操作信息,包括原子操作名称、操作编码、添加时间、状态、被引用次数等...

信号发生器

按照信号类型生成指定类型的信号值,信号类型支持6种,包括常数、正弦、脉冲、斜线、三角和白噪声。本文为您介绍数据处理的信号发生器算法组件。计算逻辑原理常数:输出信号值=幅度值。正弦:根据幅度和频率产生正弦波,输出信号值=幅度*...
< 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 物联网无线连接服务 SSL证书 轻量应用服务器 块存储 商标
这些文档可能帮助您
在Apache服务器上安装SSL证书 SSL证书安装指南 安装PFX格式证书 什么是故障演练 部署证书到阿里云产品 什么是数据库自治服务DAS

新品推荐

你可能感兴趣

热门推荐

新人福利专场 阿里云试用中心 企业支持计划 飞天会员助力企业低成本上云 智能财税30天免费试用 云解析DNS新用户首购低至36元/年起 ECS限时升级特惠6.5折