运维事件中心

运维事件中心是企业业务连续性的运营管理平台,提供丰富的监控集成、强大的报警降噪、可靠的通知、灵活的事件流转、基于ITIL的故障管理等功能,一站式管理、多端协同,帮助企业实现更实时的数字化管理、更快的故障响应、更短的故障时长、更...

负载均衡

负载均衡SLB(Server Load Balancer)是一种对流量进行按需分发的服务,通过将流量分发到不同的后端服务来扩展应用系统的服务吞吐能力,并且可以消除系统中的单点故障,提升应用系统的可用性。

全局流量管理

全局流量管理通过DNS实现应用服务的就近访问接入、多地址负载均摊,同时根据健康检查进行DNS Failover,实现应用服务的同城多活故障隔离和异地容灾。

性能分析

性能分析服务为移动 App 提供实时线上性能数据的...性能分析服务支持 Android/iOS 应用类型,帮助客户建立 5 分钟线上故障感知能力,并与崩溃分析/远程日志服务配合使用,构建异常“感知-定位-恢复”的运维能力闭环,提升 App 使用体验。

崩溃分析

崩溃分析服务为移动 App 提供实时线上稳定性相关...崩溃分析服务支持 Android/iOS/H5 应用类型,帮助客户建立 5 分钟线上故障感知能力,并与性能分析/远程日志服务配合使用,构建异常“感知-定位-恢复”的运维能力闭环,提升 App 使用体验。

Node.js 性能平台

Node.js 性能平台(Node.js Performance Platform)是面向中大型 Node.js 应用提供性能监控、安全提醒、故障排查、性能优化等服务的整体性解决方案。\nNode.js 性能平台凭借对 Node.js 内核深入的理解,提供完善的工具链和服务,协助客户主动、...

云数据库 OceanBase

OceanBase 是阿里巴巴和蚂蚁金服 100%自主研发的金融级分布式关系数据库,在普通硬件上实现金融级高可用,在金融行业首创“三地五中心”城市级故障自动无损容灾新标准,同时具备在线水平扩展能力,创造了 6100万次/秒处理峰值的业内纪录,...

数据库自治服务 DAS

数据库自治服务DAS(Database Autonomy Service)是一种基于机器学习和专家经验实现数据库自感知、自修复、自优化、自运维及自安全的云服务,帮助您消除人工操作引发的服务故障,有效保障数据库服务的稳定、安全及高效。

应用高可用服务 AHAS

应用高可用服务AHAS是一款专注于提高应用高可用能力的SaaS产品,提供应用架构自动探测、故障注入式高可用能力演练、一键应用防护和增加功能开关等功能,可以快速低成本地提升应用可用性。

代码逻辑场景

受影响的请求数 否 0 限制最多发生故障的请求总数,每生效一次故障计数加1,累计发生故障请求数超出设定值后,请求则不再发生故障。填写数值小于等于0时,则表示不限制。受影响的请求占比(%)否 0 限制发生故障的请求数占所有应该发生故障...

基本概念

RPO Recovery Point Objective(数据恢复目标),指应用发生故障时预期的数据丢失量。例如,RPO=15 分钟,表示在应用发生故障时,最近 15 分钟的数据无法在云上恢复。RTO Recovery Time Objective(恢复时间目标),指故障发生时,在云...

实例的节点故障处理机制

当节点发生故障后,系统会对故障节点进行检查与修复。节点故障期间实例的相关服务不可用。说明 单节点实例适用于测试、培训、非核心业务等场景,生产环境建议使用副本集实例或分片集群实例以保障服务的高可用性。副本集 图 1.副本集架构 ...

DeviceLinkDown

DeviceLinkDown事件提示您线下机构侧动态路由邻居发生故障或者静态接入链路发生故障。告警信息 事件名称 事件级别 状态码 状态描述 DeviceLinkDown CRITICAL linkdown Device Link State Change 可能原因 用户侧交换机设备故障。用户侧交换...

JVM注入动态脚本

受影响的请求数 否 0 限制最多发生故障的请求总数,每生效一次故障计数加1,累计发生故障请求数超出设定值后,请求则不再发生故障。填写数值小于等于0时,则表示不限制。受影响的请求占比(%)否 0 限制发生故障的请求数占所有应该发生故障...

如何管理故障

更新故障通知:在故障处理的过程中,当故障进展发生变化,包括进度更新、影响恶化、故障等级变化、原因明确、根因定位等场景下,可更新故障过程中的内容,并在故障详情页点击更新故障通知,选择需要的故障通告类型,并最终确认发出故障通告...

替换主机

当主机发生故障后,如果您创建专属集群MyBase时主机故障处理策略选择的是手动替换主机,则您可以通过手动替换主机来解除故障。前提条件 专属集群MyBase引擎的为MySQL,且主机存储类型为本地SSD盘。背景信息 当主机发生故障时,系统会通过...

替换主机

当主机发生故障后,如果您创建专属集群MyBase时主机故障处理策略选择的是手动替换主机,则您可以通过手动替换主机来解除故障。前提条件 专属集群MyBase引擎的为MySQL,且主机存储类型为本地SSD盘。背景信息 当主机发生故障时,系统会通过...

DDH故障迁移

若您未开启DDH故障迁移服务,DDH发生故障停机后,您需要提交工单申请置换一台健康的DDH。注意 DDH因故障迁移完成后,DDH ID及ECS实例的元数据(例如实例ID、私有IP地址、公网IP地址)均保持不变,但是由于更换了物理服务器,DDH的机器码会...

日志管理

如果发生故障,您可以下载日志或提供日志上传路径给阿里云工程师定位问题。下载日志 在浏览器中,输入https://<块网关IP地址>访问本地块网关控制台。输入用户名和密码,单击确认。单击关于,进入关于系统页面。找到日志信息区域,...

日志管理

如果发生故障,您可以下载日志或提供日志上传路径给阿里云工程师定位问题。操作步骤 在浏览器中,输入https://<文件网关IP地址>访问本地文件网关控制台。输入用户名和密码,单击确认。单击关于,进入关于系统页面。找到日志信息区域...

跨地域容灾

容灾系统部署在阿里云上两个地域中,当主系统发生故障时,业务系统切换到容灾系统。主系统和容灾系统部署在不同的地域,可靠性更高,有效避免了地域性灾害导致的系统故障。准备工作 在实现跨地域容灾之前,您需要选择一个不同于生产环境的...

应用场景

当其中一部分ECS实例发生故障后,负载均衡会自动屏蔽故障的ECS实例,将请求分发给正常运行的ECS实例,保证应用系统仍能正常工作。同城容灾(多可用区容灾)为了提供更加稳定可靠的负载均衡服务,阿里云负载均衡已在各地域部署了多可用区以...

主备方案介绍

灾备方案 说明 单可用区高可用方案 主备节点部署在同一可用区中的不同机器上,当任一节点发生故障时,由高可用HA(High Availability)系统监控主备节点的健康状态并自动执行故障切换,避免单故障引起的服务中断。同城容灾方案 主备节点...

步骤五:应用容灾

确保操作人员熟悉容灾恢复流程,当主站真正发生故障时,操作人员可以顺畅地进行容灾切换。按如下步骤进行容灾演练:在受保护服务器页签,单击要启动容灾演练服务器右侧对应的操作列表下的容灾演练。在容灾演练页面,选择恢复网络、IP地址、...

修改DDH故障迁移配置

若您未开启DDH故障迁移服务,DDH发生故障停机后,您需要提交工单申请置换一台健康的DDH。注意 本地SSD型DDH(例如本地SSD型i2)不支持自行手动迁移和故障时自动迁移。如果本地SSD型DDH出现故障,您可以提交工单申请人工迁移,但迁移后本地...

跨地域容灾

容灾系统部署在阿里云的两个地域中,当主系统发生故障时,业务系统切换到容灾系统。主系统和容灾系统部署在不同的地域,提供容灾即服务,且RPO可以低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性灾害导致的系统故障...

什么是故障

本文主要介绍什么是故障。定义在日常运营中,无论什么原因导致业务服务中断、服务品质...故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务连续性形成改进,避免历史同类故障重复发生

跨可用区容灾

确保操作人员熟悉容灾恢复流程,确保在主站真正发生故障时,操作人员可以顺畅地进行容灾切换。容灾演练操作步骤如下:在连续复制型容灾的受保护服务器页签中,单击要启动容灾复制的服务器对应的操作栏下的容灾演练。在容灾演练对话框中,...

同城多活架构实践

在杭州单元格B的商品应用发生故障的情况下,可使用MSHA切流功能将流量全部切换到另外的单元格,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换...

同城多活架构实践

在杭州单元格B的商品应用发生故障的情况下,可使用MSHA切流功能将流量全部切换到另外的单元格,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换...

备份和灾难恢复

故障切换回切:通过DNS将应用IP从原生产中心修改到灾备中心,实现故障切换和服务恢复机制主站发生故障时,由备站继续提供服务。3.两地三中心 业务部署模式:目前相同的业务应用可以分别部署在阿里云两个城市的三个数据中心中(杭州两个机房...

跨可用区容灾

确保操作人员熟悉容灾恢复流程,确保在主站真正发生故障时,操作人员可以顺畅地进行容灾切换。按如下步骤进行容灾演练:在受保护服务器页签,单击要启动容灾演练服务器右侧对应的操作列表下的容灾演练。在容灾演练页面,选择恢复网络、IP...

同城容灾 解决方案架构

当主用机房的数据库发生故障时,业务切换至备用机房的数据库。A-S模式:同城两机房中部署完全一致的系统,其中一个机房(Standby)的资源完全用于备份,不对外提供业务。当主用机房(Active)发生故障时,业务切换至备用机房。A-A模式:...

常见问题-FAQ

说明 受限于拨测平台探点发生变化和全国各地运营商TTL缓存原因,如使用不同的拨测平台、以及在不同的测试时间,全网生效测试结果会发生变化。注意 标准版最快可在4分钟左右准确发现故障并切换故障发现时间:GTM可保障故障发现时间,目前...

什么是故障演练

适用场景 故障演练可适用于以下典型场景:衡量微服务的容错能力通过模拟调用延迟、服务不可用、机器资源满载等,查看发生故障的节点或实例是否被自动隔离、下线,流量调度是否正确,预案是否有效,同时观察系统整体的QPS或RT是否受影响。...

FAQs

说明 受限于拨测平台探点发生变化和全国各地运营商TTL缓存原因,如使用不同的拨测平台、以及在不同的测试时间,全网生效测试结果会发生变化。注意 故障发现时间:GTM可保障故障发现时间,目前默认的健康检查配置可以在故障的4分钟左右准确...

链路状态

发生故障时,及时进行切换。操作步骤 登录智能接入网关控制台。在智能接入网关页面,单击目标实例ID。在智能接入网关实例详情页面,单击高可用配置,可查看链路状态。绿灯:表示链路正常。红灯:表示链路故障。icmsDocProps={'...

光模块故障

介绍光模块发生故障的原因和处理方法。问题现象 光模块连接后,接口指示灯没有变为绿色。可能原因 光模块不兼容或损坏。智能接入网关设备支持的光模块型号详情请参见光模块型号。说明 目前仅SAG-1000支持光模块插入。解决方案 通用多模光...

灾备方案介绍

图 1.Redis容灾架构演进 灾备方案 灾备级别 说明 单可用区高可用方案★主备节点部署在同一可用区中的不同机器上,当任一节点发生故障时,由高可用HA(High Availability)系统自动执行故障切换,避免单故障引起的服务中断。同城容灾方案...

使用场景

场景一:面向大中型企业的多地容灾高可用网络架构 当本地数据中心的关键业务对可用性要求极高时,建议在多个接入建立专线连接,该拓扑确保了因光纤切断、设备故障或接入位置故障导致的连接故障的恢复能力。自主申请专线和共享合作伙伴...
< 1 2 3 4 ... 150 >
跳转至: GO

新品推荐

你可能感兴趣

热门推荐

新人福利专场 阿里云试用中心 企业支持计划 飞天会员助力企业低成本上云 智能财税30天免费试用 云解析DNS新用户首购低至36元/年起 ECS限时升级特惠6.5折