负载均衡

负载均衡SLB(Server Load Balancer)是一种对流量进行按需分发的服务,通过将流量分发到不同的后端服务来扩展应用系统的服务吞吐能力,并且可以消除系统中的单点故障,提升应用系统的可用

运维事件中心

运维事件中心是企业业务连续的运营管理平台,提供丰富的监控集成、强大的报警降噪、可靠的通知、灵活的事件流转、基于ITIL的故障管理等功能,一站式管理、多端协同,帮助企业实现更实时的数字化管理、更快的故障响应、更短的故障时长、更...

终端访问控制系统

终端访问控制系统UEM(Unified Endpoint Management)是基于阿里巴巴数字办公最佳实践输出的办公终端管理系统,通过对移动端和PC端办公设备(Windows、macOS、Android、iOS)的统一管理,为企业员工提供随时、随地、高效、安全的办公体验。

什么是故障演练

故障演练是一款遵循混沌工程实验原理并融合了阿里巴巴内部实践的产品,提供丰富故障场景,能够帮助分布式系统提升容错和可恢复。流程 故障演练建立了一套标准的演练流程,包含准备阶段、执行阶段、检查阶段和恢复阶段。通过四阶段的...

故障演练常见问题

故障不生效的原因较多,可能是参数配置不正确或无对应的请求命中,但故障规则已成功下发,故需要计费。刚刚购买的资源包为什么会被扣减次数?因为购买前已产生欠费,购买资源包后会先扣减所欠的次数。子账号的消费是否独立计费?不是,与主...

常见问题

更多产品定价常见问题 挂载访问FAQ Linux挂载NFS文件系统常见问题 Windows挂载SMB文件系统常见问题 Linux挂载SMB文件系统常见问题 Windows挂载NFS文件系统常见问题 更多挂载访问常见问题 性能测试FAQ 文件系统的读写性能与什么相关?...

常见问题

运维管理 容器应用服务常见问题经典应用服务常见问题 中间件 SOFABoot 常见问题微服务常见问题微服务故障排查之 DRM微服务故障排查之限流微服务故障排查之 RPC服务网格-故障排查消息队列常见问题任务调度常见问题分布式链路跟踪常见问题...

强弱依赖治理概述

强弱依赖治理的应用 强弱依赖治理主要可以被应用到以下场景:系统改造验收:对于分布式系统,至少在运行态中,不会因为依赖的系统后台出现故障,引起当前应用出现系统级可用故障,例如进程挂掉、频繁FullGC、负载飙高等,何时何地都应...

故障演练快速入门

为验证系统的容错和可恢复等性能,您可以将合适的故障注入到系统中,观察系统的表现,从而识别系统中可能存在的问题并及时修复。本文以 CPU 满载演练为例,介绍如何使用故障演练功能。步骤一:安装探针 进入 AHAS 产品主页,开通 AHAS ...

应用场景

报警事件分级管理:系统触发的报警、事件、故障无分级,能第一时间区分任务的紧急和影响程度导致重要紧急的任务未及时处理,加大业务损失。打破数据烟囱:同一个业务运营下所有层级的报警数据统一汇聚,不同监控源数据互联互通,真实反应...

故障隔离

某个服务故障或者异常时,如果该服务触发熔断会造成整个服务的可用。而故障隔离能够定位到异常的服务实例,实现实例级别精细化的隔离和摘流,使故障影响的范围更小、更可控。配置故障隔离规则登录 SOFAStack 控制台。在左侧菜单栏选择 ...

如何管理故障

更新故障通知:在故障处理的过程中,当故障进展发生变化,包括进度更新、影响恶化、故障等级变化、原因明确、根因定位等场景下,可更新故障过程中的内容,并在故障详情页点击更新故障通知,选择需要的故障通告类型,并最终确认发出故障通告...

故障注入

您可以通过故障注入功能向测试应用注入故障,检测应用面对异常时的处理情况。您可以根据检测的情况调整您的应用,以减少应用在正式使用时出现的异常问题。多用于测试环境。功能简介故障注入流程如下所示:在微服务中,其实现方式为:管控台...

什么是故障

故障等级由影响程度来确定:影响程度以受影响产品/服务/功能的重要+影响面(如受影响用户数、损失的金额、外部舆情等)+故障时间来确定;功能重要:分核心、次核心和非核心;次核心功能和非核心功能的故障级别,相比核心依次降一级、二...

故障注入

您可以通过故障注入功能向测试应用注入故障,检测应用面对异常时的处理情况。您可以根据检测的情况调整您的应用,以减少应用在正式使用时出现的异常问题。多用于测试环境。配置故障注入规则登录 SOFAStack 控制台。在左侧菜单栏选择 中间件...

功能优势

丰富的故障场景 丰富的故障场景也是 AHAS Chaos 的一大特色,包括了以下场景:常见的基础设施资源例如CPU、内存、磁盘等。应用级别的故障注入,目前只支持 Java 应用,后续将陆续推出对于 NodeJs 和 C++ 的应用故障注入。云原生领域的演练...

诊断决策树

对于未知的故障,您可以依据运维经验,编排出常见的排查路径,辅助快速故障定位。新建诊断决策树从左侧导航栏进入 故障诊断>诊断决策树 页面,单击 新建诊断决策树。在右侧新窗口中,配置诊断决策树信息,包括决策树名称、描述,超时...

管理集群

主机故障处理策略 设置主机故障系统的处理策略:自动替换主机:系统会自动替换故障主机。说明 如果故障主机是云盘主机,云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后自动...

管理集群

主机故障处理策略 设置主机故障系统的处理策略:自动替换主机:系统会自动替换故障主机。说明 如果故障主机是云盘主机,云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后自动...

微服务应用问题定位及故障演练

本文介绍微服务应用问题...发现故障并验证系统故障的告警时效。架构图 参考链接 有关微服务应用问题定位及故障演练的详情,请参见微服务应用问题定位及故障演练最佳实践。icmsDocProps={'productMethod':'created','language':'zh-CN',};

跨地域容灾

系统和容灾系统部署在不同的地域,可靠更高,有效避免了地域灾害导致的系统故障。准备工作 在实现跨地域容灾之前,您需要选择一个不同于生产环境的地域作为容灾目标地域。在该地域上创建云上专有网络(VPC),并创建复制网络交换机和...

故障排查

本文介绍阿里云容器服务ACK集群在使用过程中常见问题的故障分析和排查流程。ACK集群异常 Kubernetes集群创建失败的解决方法 添加Kubernetes集群节点的常见问题 容器镜像仓库构建服务失败问题排查 容器镜像服务源码绑定失败问题排查 ...

实例的节点故障处理机制

当节点发生故障后,系统会对故障节点进行检查与修复。节点故障期间实例的相关服务可用。说明 单节点实例适用于测试、培训、非核心业务等场景,生产环境建议使用副本集实例或分片集群实例以保障服务的高可用。副本集 图 1.副本集架构 ...

配置故障注入

故障注入是一种模拟应用异常行为的技术,通过给应用注入特定故障,可以检测该应用的消费者处理异常情况的能力,从而提高系统的健壮。本文介绍如何为多语言应用配置服务故障。创建故障注入规则 登录MSE治理中心控制台。在左侧导航栏选择微...

什么是消息演练

各种中间组件会相继被引入系统,其中分布式消息服务更是系统中必可少的一环,这些消息服务之前并没有实际在系统中经历过真实流量考验,很难发现一些其中隐患或缺陷,急需通过故障演练来评测高可用。AHAS提供了强大且高灵活度的故障演练...

管理MySQL集群

主机故障处理策略 主机故障时,系统的处理策略:自动替换主机:系统会自动替换故障主机。说明 如果故障主机是云盘主机,云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后自动...

演练场景

故障演练是业务系统上线前必要的演练环节,旨在对应急预案的可行,进一步完成应急预案,从而帮助提升产品、集群、机房的稳定,减少故障的发生,提高故障应急效率,进而提升产品竞争力。一个完整的故障演练过程为 创建故障原子服务>...

跨地域容灾

系统和容灾系统部署在不同的地域,提供容灾即服务,且RPO可以低至1分钟、RTO低至15分钟的高可靠的业务持续保障,有效避免了地域灾害导致的系统故障。准备工作 在实现跨地域容灾之前,您需要选择一个不同于生产环境的地域作为容灾目标...

什么是ECS容灾

系统和容灾系统部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续保障,有效避免了地域灾害导致的系统故障。详情请参见跨地域容灾。当生产站点因为不可抗力因素(比如火灾、地震)或者设备故障(软...

管理PostgreSQL集群

主机故障处理策略 主机故障时,系统的处理策略:自动替换主机:系统会自动替换故障主机。说明 如果故障主机是云盘主机,云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后再替换...

为多语言应用配置故障注入

故障注入是一种模拟应用异常行为的技术,通过给应用注入特定故障,来检测该应用的消费者处理异常情况的能力,然后通过提升处理该异常情况能力的方式来提高系统的稳定。本文介绍如何为多语言应用配置服务故障。创建故障注入规则 登录EDAS...

同城多活架构实践

虽然故障最终得以解决,但故障导致的客户流失和企业口碑影响,对快速发展的业务造成小的打击,迫使企业开始重视同城多活容灾能力的建设,以及定期做故障演练确保故障恢复能力的有效。同城多活架构改造 基于MSHA多活容灾解决方案,您...

同城多活架构实践

虽然故障最终得以解决,但故障导致的客户流失和企业口碑影响,对快速发展的业务造成小的打击,迫使企业开始重视同城多活容灾能力的建设,以及定期做故障演练确保故障恢复能力的有效。同城多活架构改造 基于MSHA多活容灾解决方案,您...

创建MongoDB集群

您需要先创建专属集群...开放OS权限 专属集群MongoDB引擎的主机提供操作系统(OS)权限,默认为关闭。首次使用该阿里云账号创建专属集群MyBase时,创建专属集群MyBase页底部会提示需要获取ECS网卡及安全组授权,请单击点击授权。单击确定

主备方案介绍

主备容灾:当云数据库HBase实例因可预料的原因(例如设备故障、机房断电断网等)发生故障,容灾机制可用于保障数据的一致和业务可用。功能优势 主备双活:请求低毛刺。故障自动容错。资源利用率高。主备容灾:支持云数据库HBase、EMR...

如何管理事件

在升级故障弹窗内填写故障名称、选择故障等级、选择故障状态、选择所属服务、选择影响服务、填写进展摘要、主要处理人、选择应急协同组,点击确定。如下图所示:字段描述故障名称:事件升级为故障后的名称,限制 36个字符;故障等级:设置...

网站耗资源(客户程序故障常见问题

本文汇总了使用云虚拟主机出现网站耗资源(客户程序故障)时的常见问题。什么是网站耗资源(客户程序故障)?网站程序占用CPU及内存过多,是对资源的一种浪费。当您使用普通版共享云虚拟主机建站后,可能会因为网站程序编写合理、代码...

系统日志和屏幕截图

系统通过串口打印输出的日志会包含两种类型的信息,一类是系统启动开机时的日志内容,另一类是系统内核故障或异常时的日志内容。更多详情,请参见《云栖社区》博客操作系统有异常?诊断日志来帮忙。您可以通过控制台实例详情页、控制台实例...

开源ChaosBlade与商业化AHAS CHAOS故障演练对比

演练专家经验库 支持 支持 基于系统架构的组件化演练 支持 支持 大规模的集群演练能力 支持 支持 快速接入 项目 AHAS CHAOS故障演练 ChaosBlade 阿里云ECS快速接入 支持 支持 K8s集群快速接入 支持 支持 自建系统公网快速接入 ...

演练场景说明

AHAS提供基础资源类场景和Kubernetes类场景,帮助分布式系统提升容错和可恢复。每一个执行阶段的演练场景都对应一个恢复阶段的演练任务。恢复阶段的演练任务目的是清除故障演练的影响,使应用或服务恢复正常,通常需要配置参数。本文...
< 1 2 3 4 ... 200 >
跳转至: GO

新品推荐

你可能感兴趣

热门推荐

新人福利专场 阿里云试用中心 企业支持计划 飞天会员助力企业低成本上云 智能财税30天免费试用 云解析DNS新用户首购低至36元/年起 ECS限时升级特惠6.5折