基本概念

AKE Plus Ant Financial Kubernetes Engine Plus 是在开源 kubernetes 和 Containerd 基础上蚂蚁自研的容器云平台,用于部署金融云产品,对外提供统一的计算、存储、网络资源抽象,屏蔽物理和虚拟等各种环境的差异。AKS 容器应用服务...

名词解释

例如,某项任务完成的信息,或者设备发生故障或告警时的温度等,事件可以被订阅和推送。设备影子 是一个JSON文档,用于存储设备或者应用的当前状态信息。每个设备都会在云端有唯一的设备影子。无论该设备是否连接到Internet,您都可以使用...

替换主机

当主机发生故障后,如果您创建 专属集群MyBase 时 主机故障处理策略 选择的是 手动替换主机,则您可以通过手动替换主机来解除故障。前提条件 专属集群MyBase 引擎的为MySQL,且主机存储类型为本地SSD盘。背景信息 当主机发生故障时,系统会...

替换主机

当主机发生故障后,如果您创建 专属集群MyBase 时 主机故障处理策略 选择的是 手动替换主机,则您可以通过手动替换主机来解除故障。前提条件 专属集群MyBase 引擎的为MySQL,且主机存储类型为本地SSD盘。背景信息 当主机发生故障时,系统会...

附录:SOFAStack 产品目录

传统实现方式是在系统代码里指定任务的执行顺序,当业务发生变化时需要修改代码才可以正常工作,可维护很差。使用 SOFAStack 任务调度中的任务编排功能,可以轻松完成任务之间的依赖调整,大大提高了可维护,并可以直观地看到任务的...

使用须知

本地盘实例可靠取决于宿主机可靠,当发生单点故障时,ENS会进行同节点迁移帮助实例尽快恢复连通,不保证数据可靠。单个边缘节点无法连通时,ENS会根据用户需求进行跨节点迁移帮助用户尽快恢复区域内连通,实例ID不变、实例IP改变,不...

设计原则

具体来说,数据容灾的目标包括:数据的完整性:确保数据在发生故障、灾难或意外情况时不会丢失或损坏,保持数据的完整性;数据的可恢复性:能够在数据中心或服务器发生故障或灾难时,快速恢复数据,以尽量减少业务中断时间和数据恢复的成本...

网络资源

网络资源是指用于节点之间通信和数据传输的硬件和软件资源,除了包括广域网、局域网、交换、路由器,还包括常用到的专有网络、虚拟交换、负载均衡、弹性公网、VPN、DNS、CDN等资源。在分布式系统中,网络资源的主要作用是支持节点之间...

主备切换

当 云数据库Redis版 监测到实例的主节点不可用时,会自动触发主备切换,将备节点提升为主节点,保障实例的高可用。若您收到短信、邮件、控制台站内信等通知,告知您 Redis 实例已完成主备切换,您可以参考本文了解主备切换的原因、影响和...

主备切换

当 云原生内存数据库 Tair 监测到实例的主节点不可用时,会自动触发主备切换,将备节点提升为主节点,保障实例的高可用。若您收到短信、邮件、控制台站内信等通知,告知您 Tair 实例已完成主备切换,您可以参考本文了解主备切换的原因、...

组复制简介

特性 组复制 半同步复制 异步复制 数据可靠★数据一致 保证主备数据一致 不保证 不保证 全局事务一致 支持 不支持 不支持 数据 强 可靠 组复制的数据强可靠来源于Paxos协议的多数派原则,即当多数派收到事务的Binlog后,事务...

性能监控最佳实践

在两者之间的 Node.js 应用可以接收 Jaeger 协议并向下透传 B3 协议,保证全链路标记透传完整性。服务端数据格式转换,可以将上报的不同数据格式转换成统一格式进行存储,或者在查询侧进行兼容。前者维护成本相对较小,后者兼容性成本更高...

围绕混沌工程的平台实践

因此混沌工程是一门学科,它提供了基本的理论指导,而故障演练是混沌工程的具体实践,通过向目标系统注入真实可能发生故障来考量系统的稳定。混沌工程和AHAS Chaos AHAS Chaos是以混沌工程为理论指导的故障演练平台,目标是成为混沌...

监测和诊断eRDMA

说明 ATOMIC操作指的是一种对内存进行原子级别操作的功能,它可以保证操作的完整性和一致性,仅适用于部分应用场景。如果您不需要使用,请忽略相关报错。go-back-n support eRDMA设备是否支持Go-back-N功能 PASS SKIP:可能是当前eRDMA设备...

DDH常见问题

弹性裸金属服务器(ECS Bare Metal Instance,简称为EBM)是一款同时兼具虚拟弹性和物理性能及特性的新型计算类产品,是基于阿里云完全自主研发的下一代虚拟化技术而打造的新型计算类服务器产品。EBM详情,请参见 弹性裸金属服务器概述...

什么是云监控

事件监控 为您提供事件的上报、查询、报警功能,方便您将业务中的各类异常事件或重要变更事件收集上报到云监控,并在异常发生接收报警。自定义监控 您可以针对自己关心的业务指标设置自定义监控,将采集到的监控数据上报至云监控,由云...

功能概览

主机监控 支持对物理和虚拟的监控,比如系统指标、端口探测等。云原生监控 提供对云原生丰富的监控能力,从 Kubernetes 集群、Kubernetes 组件以及容器运行时等多维度进行监控。默认提供云原生最佳监控的可视化面板。提供多集群、集群...

什么是故障演练

适用场景 故障演练可适用于以下典型场景:衡量微服务的容错能力 通过模拟调用延迟、服务不可用、机器资源满载等,查看发生故障的节点或实例是否被自动隔离、下线,流量调度是否正确,预案是否有效,同时观察系统整体的QPS或RT是否受影响。...

高性能版实例

恢复模式中,系统会对残留的锁和内存执行一些清理操作,并通过回放WAL文件来保证数据的完整性。恢复期间,实例会暂时无法服务,完成恢复后,实例会恢复正常。高可用版实例恢复一般耗时5~10分钟(min),而高性能版实例通过更改CheckPoint...

日志管理

如果发生故障,您可以下载日志或提供日志上传路径给阿里云工程师定位问题。下载日志 在浏览器中,输入 https://<文件网关IP地址>访问本地文件网关控制台。输入用户名和密码,单击 确认。单击 关于,进入 关于系统 页面。找到 日志信息 区域...

日志管理

如果发生故障,您可以下载日志或提供日志上传路径给阿里云工程师定位问题。下载日志 在浏览器中,输入 https://<块网关IP地址>访问本地块网关控制台。输入用户名和密码,单击 确认。单击 关于,进入 关于系统 页面。找到 日志信息 区域,...

网络游戏:心动网络股份有限公司

同时在主实例发生故障的时候,系统能在短时间(30s~60s)内完成快速切换,确保在线业务能够在保证数据完整性的同时快速恢复以提供正常的服务。丰富的业务支持 PolarDB 能够100%兼容MySQL 5.6、MySQL 5.7和MySQL 8.0,完全兼容MySQL各种生态...

冷备操作手册

在后续运行中,如一体机发生硬件故障,本文档描述如何一键替换主机,快速恢复现场业务。一 支持声明 冷备支持机型 物业管理一体-停车版、物业管理一体-人行版、物业管理一体-视频版、物业管理一体-EBA版、物业管理一体-通行版、...

灾备规划

如果您的AD服务器是集中部署在一个数据中心,可能发生同一时间离线的情况,建议您:用混合云灾备一体保护AD服务器,在云下发生故障时首先恢复这台AD服务器。在云上VPC里部署一个从AD服务器,与云下的主AD服务器保持连接。云下发生故障时...

什么是全局流量管理?

⑤ 容灾预案:容灾预案可以帮助用户实现容灾演练,或发生故障时快速切换访问流量,包括创建容灾预案、执行/回滚等相关信息。系统架构 全局流量管理是由管控层和解析层两部分组成:管控层:管控层通过控制台和OpenAPI对外提供服务,主要实现...

ECS灾备解决方案

为了保障企业业务稳定、IT系统功能正常以及数据安全,灾备解决方案变得越来越重要,并且正在迅速发展。...这样,当主节点发生故障时,ECS节点仍然可以从备节点读取数据,确保数据的可用和业务的连续。更多信息,请参见 RDS数据库。

产品优势

安全可靠 DTS底层为服务集群,如果集群内任何一个节点宕发生故障,控制中心都能够将这个节点上的所有任务快速切换到其他节点上,链路稳定高。DTS内部对部分传输链路提供7×24小时的数据准确校验,快速发现并纠正传输数据,保障传输...

名词解释

这种模式下,两个城市的三个数据中心互联互通,如果⼀个数据中心发生故障或灾难,其他数据中心可以正常运行并对关键业务或全部业务实现接管。命名空间 多活命名空间MSHA Namespace,是一个逻辑租户的概念,用于进行租户粒度的管控配置和云...

GxP欧盟附录11标准合规包

作为风险管理系统的一部分,关于验证范围和数据完整性控制的决定应基于对计算机化系统的合理和有据可查的风险评估。4.2 验证文档应包括变更控制记录(如果适用)和关于验证过程中观察到的任何偏差的报告。9.1 应考虑在风险评估的基础上,在...

本地盘最佳实践

如果本地盘发生故障、物理服务器发生宕,或者人为误操作,本地盘会丢失数据。请勿在本地盘上存储需要长期保存的业务数据。但云盘采用分布式三副本机制,能防止意外硬件故障导致的数据不可用。如果应用没有多节点数据冗余架构,强烈建议您...

网络架构容灾

当地址池中地址发生故障时,HealthCheck模块会准确的检测到异常情况并与DNS交互(如下图中序号3所示),摘除故障地址(如下图中序号4所示),这样用户端会自动解析到可用的地址池(如下图中序号5所示)。并当故障地址恢复时,自动恢复至...

实时分析链路数据

如果您的应用遇到流量不均、单机故障、慢接口治理、业务流量统计、灰度发布监控等问题,可以通过应用监控的调用链分析快速定位问题代码。本文介绍如何通过调用链分析快速定位五种经典线上问题,更直观地了解调用链分析的用法与价值。背景...

演练场景

故障演练是业务系统上线前必要的演练环节,旨在对应急预案的可行,进一步完成应急预案,从而帮助提升产品、集群、机房的稳定,减少故障发生,提高故障应急效率,进而提升产品竞争力。一个完整故障演练过程为 创建故障原子服务>创建...

主从实例读写分离部署(共享存储)

该方案为当前每个实例内部默认启用,当系统发生故障时,无需手工运维介入,系统可以自动恢复。在恢复期间,如果查询算子需要访问恢复中的节点,则查询会立即失败。Hologres从V1.1版本开始,采用全新恢复机制,节点恢复速度在一分钟左右,比...

集群高可用架构推荐配置

高可用(High Availability,HA)是指系统的设计能够确保服务可靠和持续的一种特性。容器服务 Kubernetes 版 基于Kubernetes架构提供了多种集群高可用保障机制,以确保集群控制面、节点与节点池、工作负载、负载均衡等维度的高可用,...

存储资源

可能原因包含数据库服务进程异常退出、数据库节点宕、数据库网络异常等,常见的容错策略如下:自动重启:当数据库实例异常终止或崩溃时,可以设置自动重启和恢复机制,自动重新启动数据库服务,并进行必要的数据恢复操作,以确保数据库的...

基于Kubernetes容器集群的容灾架构与方案

在进行系统架构设计时,您必须考虑到信息系统和基础设施可能遇到的各种潜在威胁,例如:硬件故障、软件系统崩溃、人为操作失误、安全攻击、自然灾害等。为了确保系统能够在各种异常故障场景下快速恢复并保持业务连续,您必须为系统设计...

故障管理

通过建立一个规范可遵循、全流程闭环的故障管理体系,配合技术手段的提升,可以有效降低故障发生的几率,缩短故障的MTTR,最终使故障造成的破坏趋近于0。在日常运营中,无论什么原因导致业务服务中断、服务品质下降或用户服务体验下降的...

新功能发布记录

2023-06-30 云盒计算资源配置最佳实践 维修事件 云盒中的硬件设备发生故障需要更换时,阿里云会向您发送云盒维修事件通知,您需要授权同意阿里云上门更换并维修硬件设备。2023-06-30 响应云盒维修事件 新增地域 新增以下两个地域:华东2...

企业版和标准版功能对比

支持 支持 高可用 单可用区高可用 多节点的架构可用于保障集群的高可用,当系统发生故障时,可读写的主节点和只读节点之间会自动进行故障切换(Failover)。支持 支持 多可用区高可用 PolarDB MySQL版 支持创建多可用区的集群。相比单...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云服务器 ECS 轻量应用服务器 弹性公网IP 负载均衡 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用