同城多活架构实践

虽然故障最终得以解决,但故障导致的客户流失和企业口碑影响,对快速发展的业务造成不小的打击,迫使企业开始重视同城多活容灾能力的建设,以及定期做故障演练确保故障恢复能力的有效性。同城多活架构改造 基于MSHA多活容灾解决方案,您...

设备指示灯

智能接入网关设备指示灯的颜色和闪烁状态对应不同的设备使用情况。设备类型 指示灯 状态说明 SAG-100WM LTE 表示设备通讯是否正常:长亮或熄灭:设备通讯异常。闪烁:设备正常通讯。信号指示 表示4G LTE信号强度:3格信号强度。WAN 表示...

网络类场景

网络延迟 网络延迟场景可以指定网络延迟因素(例如网卡、本地端口、远程端口、目标IP等)和延迟时间,对应用或服务注入网络调用延迟故障。验证网络延迟情况下系统的容错能力。表 1.参数说明 参数名称 参数说明 网卡名称 具体的网卡设备,为...

更新故障详情

更新故障详情 调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求头 该接口使用公共请求头,无特殊请求头。请参见公共请求参数文档。请求语法 POST/...

演练场景说明

故障演练场景是演练任务的核心。AHAS提供基础资源类场景和Kubernetes类场景,帮助分布式系统提升容错性和可恢复性。每一个执行阶段的演练场景都对应一个恢复阶段的演练任务。恢复阶段的演练任务目的是清除故障演练的影响,使应用或服务恢复...

弹性Web托管服务等级指标

1.12服务赔偿条款1.12.1赔偿范围因阿里云设备故障、设计缺陷或操作不当导致用户所购买的服务无法正常使用,阿里云需要对不可用时间进行赔偿,但不包括以下原因所导致的服务不可用时间:(1)预先通知用户后进行系统维护所引起的,包括割接...

功能特性

产品主要功能包括风险管理、日常巡检、故障诊断、应急预案、故障演练等。风险管理风险管理 是高可用管理平台核心,是风险事件汇集、处置的中枢平台,具体如下。风险事件风险事件汇集:负责将监控、巡检、诊断产生的风险或告警信息进行汇总...

修改DDH故障迁移配置

为了降低物理故障对您业务的影响,阿里云为您提供DDH故障迁移服务。本章节介绍在创建DDH后如何修改DDH故障迁移配置。背景信息 故障迁移服务开启后,当DDH因故障停机时,会自动迁移至健康的DDH。若您未开启DDH故障迁移服务,DDH发生故障停机...

FAQs

注意 故障发现时间:GTM可保障故障发现时间,目前默认的健康检查配置可以在故障的4分钟左右准确发现故障并切换;DNS切换同步时间:GTM无法保障全网的最终生效时间,因受限于全国各地运营商的TTL缓存设置以及网络环境不同,所以全网生效时间...

常见问题-FAQ

注意 标准版最快可在4分钟左右准确发现故障并切换故障发现时间:GTM可保障故障发现时间,目前默认的健康检查配置可以在故障的4分钟左右准确发现故障并切换;全网生效时间:GTM无法保障全网的最终生效时间,因受限于全国各地运营商的TTL缓存...

跨地域容灾

容灾系统部署在阿里云上两个地域中,当主系统发生故障时,业务系统切换到容灾系统。主系统和容灾系统部署在不同的地域,可靠性更高,有效避免了地域性灾害导致的系统故障。准备工作 在实现跨地域容灾之前,您需要选择一个不同于生产环境的...

容灾架构介绍

架构特点 同城多活 异地双活 异地双读 异地应用双活 同城机房间的物理距离通常<50 km,跨机房的网络延迟较小(RT<2 ms)。应用跨机房冗余部署,同时对外提供服务。中间件、数据库跨机房主备部署,数据单点写避免考虑数据一致性问题。...

基本概念

更多请查看什么是事件故障在日常运营中,无论什么原因导致业务服务中断、服务品质下降或用户服务体验下降的现象,称为故障,但不包括用户侧环境或用户自身操作引起的问题故障比事件优先级更高,事件在处理过程中出现影响扩大或恶化时,需...

实例的节点故障处理机制

本文档介绍云数据库MongoDB版实例的节点故障处理机制。单节点实例 由于单节点实例架构的特殊性,单节点实例仅拥有一个节点。当节点发生故障后,系统会对故障节点进行检查与修复。节点故障期间实例的相关服务不可用。说明 单节点实例适用于...

读多写少型业务场景多活实践

在杭州单元发生故障的情况下,可以使用MSHA切流功能将受影响的用户流量切换到另外的单元,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换预期:将...

读多写少型业务场景多活实践

在杭州单元发生故障的情况下,可以使用MSHA切流功能将受影响的用户流量切换到另外的单元,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换预期:将...

故障排查

排查第2层(数据链路)问题 本地IDC机房接入设备的指示灯正常,但接入设备无法ping通云上边界路由器VBR的IP,请通过以下步骤排查该问题:请检查是否已正确配置您的互联IP地址,确保互联IP地址在一个网段,并且位于正确的VLAN中。...

创建系统事件报警规则

智能接入网关支持的系统事件如下:事件类型 事件名称 详情 维护 接入点切换 AccessGatewayFailover 设备发生主备切换 DeviceSwitched 设备WAN链路切换 DeviceWanLinkSwitched 异常 设备被攻击 DeviceHacked 设备链路故障 DeviceLinkDown ...

故障恢复

PROBLEM_UPDATE 通告类型 PROBLEM_NOTIFY:故障通告 PROBLEM_UPDATE:故障更新 PROBLEM_UPGRADE:故障升级 PROBLEM_DEGRADE:故障降级 PROBLEM_RECOVER:故障恢复 PROBLEM_REISSUE:故障补发 PROBLEM_CANCEL:故障取消 返回数据 名称 类型 ...

流水单据型业务场景多活实践

说明 基于MSHA流量监控或其他监控能力,确定业务稳态的监控指标,以便在故障发生时判断故障影响面以及在故障恢复后判断业务的实际恢复情况。演练预期如下:下单链路对订单应用是强依赖,强依赖故障会影响业务不可用。故障爆炸半径控制在...

流水单据型业务场景多活实践

说明 基于MSHA流量监控或其他监控能力,确定业务稳态的监控指标,以便在故障发生时判断故障影响面以及在故障恢复后判断业务的实际恢复情况。演练预期如下:下单链路对订单应用是强依赖,强依赖故障会影响业务不可用。故障爆炸半径控制在...

ReportInstancesStatus

取值范围:hardware-cpu-error:CPU故障 hardware-motherboard-error:主板故障 hardware-mem-error:内存故障 hardware-power-error:电源故障 hardware-disk-error:磁盘故障 hardware-networkcard-error:网卡故障 hardware-raidcard-...

故障撤销恢复

NOTIFY:故障通告 PROBLEM_UPDATE:故障更新 PROBLEM_UPGRADE:故障升级 PROBLEM_DEGRADE:故障降级 PROBLEM_RECOVER:故障恢复 PROBLEM_REISSUE:故障补发 PROBLEM_CANCEL:故障取消 clientToken String Body 否 FD200FAE-E98F-496E-BFE6-...

强弱依赖治理概述

强弱依赖治理就是通过科学的手段持续稳定地得到应用间依赖关系、流量、强弱等数据,提前发现因为依赖问题可能导致的故障,避免依赖故障影响用户体验,积累数据持续推进系统稳定性提升。什么是强弱依赖?异常发生时,不影响核心业务流程,不...

远程重启

您可以在智能接入网关管理控制台,远程重启智能接入网关设备。操作步骤 登录智能接入网关管理控制台。使用以下任意一种方式进入设备管理页面。单击目标智能接入网关实例ID链接,进入目标智能接入网关实例详情页面,单击设备管理。选择目标...

跨地域容灾

容灾系统部署在阿里云的两个地域中,当主系统发生故障时,业务系统切换到容灾系统。主系统和容灾系统部署在不同的地域,提供容灾即服务,且RPO可以低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性灾害导致的系统故障...

围绕混沌工程的平台实践

本文主要介绍AHAS Chaos是如何围绕混沌工程来打造故障演练服务,您可以了解到混沌工程的基本知识和AHAS Chaos的优势。混沌工程和故障演练 首先您需要了解混沌工程和故障演练的关系。以下是混沌工程官方定义:混沌工程是在分布式系统上进行...

更新故障通告

故障升级 PROBLEM_DEGRADE:故障降级 PROBLEM_RECOVER:故障恢复 PROBLEM_REISSUE:故障补发 PROBLEM_CANCEL:故障取消 problemId Long Body 否 1312 故障Id clientToken String Body 否 4361a0e1-6747-4834-96ce-0c4840fd3812 幂等校验Id ...

功能概述

数据库发生故障后,无法在发生故障时定位到原因,可以通过智能压测功能,在克隆库上复现故障场景,定位故障原因。功能架构 智能压测的功能架构如下图所示:源数据库:将要进行大促、将要业务变更或者已经发生故障,需要进行流量捕获的数据...

通过Trace Explorer解决五大经典问题

本文将介绍如何通过链路分析快速定位五种经典线上问题,更直观的了解链路分析的用法与价值。背景信息 除了使用调用链排查单次请求的异常,或者使用预聚合的链路统计指标进行服务监控与告警之外,链路追踪还支持基于明细链路数据的后聚合...

什么是通知订阅

聚焦核心通知,提升问题处理效率,降低通知干扰,实现更可靠、更精准的通知送达。核心功能满足服务或流转规则被不同通知订阅对象的自定义订阅需求;满足不同的通知对象可以监听不同订阅范围的通知内容的需求;满足全部服务-服务-流转规则全...

支持计划FAQ

服务支持计划服务范围包含:关于阿里云服务与产品功能、容量、架构的咨询 使用、配置阿里云产品的最佳实践 阿里云的产品相关的技术问题故障诊断 阿里云API 和阿里云SDK问题故障诊断 与阿里云资源相关的操作或系统问题的技术支持 与阿里...

硬件功能说明

当主设备故障时,用备设备替换,保证业务的高可用性。安全 VPN加密 加密连接。访问控制(ACL)允许或者拒绝访问控制规则内IP对公网或私网的访问。说明 不支持公网访问控制。设备离线锁定 防盗,长期离线锁定。运维 远程重启 通过控制台远程...

执行演练

在执行故障演练过程中,您可以实时查看演练进度、每个演练活动的运行状态及结果,同时也能够随时结束演练,进行恢复阶段的活动,清除故障演练影响。背景信息 一次完整的故障演练包括以下四个阶段:安装探针>创建演练>执行演练>...

故障升级

新增故障 调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求头 该接口使用公共请求头,无特殊请求头。请参见公共请求参数文档。请求语法 POST/problem/...

服务介绍

由阿里云物联网无线连接服务提供的智能卡和适配ICA高可用连接的蜂窝模组搭配而成,在实现物联网设备灾备能力基础上,进一步解决弱网场景问题,有运营商网络的地方就能联网,提升设备连网率。服务架构物联网无线连接服务智能卡物联网无线...

管理AP

本文介绍如何进行查看、重启和删除AP等操作。...删除 当您有不再需要使用的智能接入AP硬件设备时,可以单击AP设备操作列删除一键删除设备和您企业的绑定关系。icmsDocProps={'productMethod':'created','language':'zh-CN',};

Redis容灾备份设计

云数据库Redis版容灾架构演进 程序在运行过程中总会遇到各种各样的问题,例如程序BUG、设备故障、机房断电等,理想的容灾机制能够在这些问题发生时,保证数据的一致性和业务可用性。云数据库Redis版为了保证业务的高可用,不断提升容灾能力...

容器服务ACK集群故障排查

journalctl-u kubelet 集群常见问题 下表罗列了一部分ACK集群常见的故障原因以及处理方法:故障场景 处理方法 API Server组件停止或Master组件停止:不能创建(停止、更新)Pod、Service、Deployment等资源。已有的Pod和Service仍然能够...

附录 灾备基本概念

第4级:电子传输及完整设备支持 完全数据备份每天一次 备份介质场外存放 每天多次定时批量传送 全部设备,可用状态(冷战)业务数据损坏 业务处理场地不可用 全部备用设备/网络故障 数小时~2天 数小时~1天 第5级:实施数据传输及完整设备...
< 1 2 3 4 ... 127 >
跳转至: GO

新品推荐

你可能感兴趣

热门推荐

新人福利专场 阿里云试用中心 企业支持计划 飞天会员助力企业低成本上云 智能财税30天免费试用 云解析DNS新用户首购低至36元/年起 ECS限时升级特惠6.5折