运维事件中心

运维事件中心是企业业务连续性的运营管理平台,提供丰富的监控集成、强大的报警降噪、可靠的通知、灵活的事件流转、基于ITIL的故障管理等功能,一站式管理、多端协同,帮助企业实现更实时的数字化管理、更快的故障响应、更短的故障时长、更...

常见问题

运维管理 容器应用服务常见问题经典应用服务常见问题 中间件 SOFABoot 常见问题微服务常见问题微服务故障排查之 DRM微服务故障排查之限流微服务故障排查之 RPC服务网格-故障排查消息队列常见问题任务调度常见问题分布式链路跟踪常见问题...

故障演练常见问题

欢迎您反馈在使用故障演练过程中遇到的问题,目前提供以下常见问题供您参考。单个演练活动成功状态怎么判断?因为一个活动可能会有很多目标机器,当所有机器执行完毕之后,如果有机器没有执行成功,那么这个演练活动就会被系统判断为失败。...

功能特性

支持解码常见编码类型:URL编码、Java Script Unicode编码、HEX编码、HTML实体编码、Java序列化编码、PHP序列化编码、Base64编码、UTF-7编码、UTF-8编码、混合嵌套编码。支持预处理机制:空格压缩、注释删减、特殊字符处理,向上层多种检测...

如何管理故障

完结:当故障根因已明确、改进措施已制定、责任人已确定、整体故障相关信息均已确定后,在故障详情页对【复盘中】的故障点击完结变为已复盘状态;在完善整体故障信息过程中,若相应人员无法搜索,需在阿里云访问控制(RAM)中添加对应子...

故障排查

本文介绍阿里云容器服务ACK集群在使用过程中常见问题的故障分析和排查流程。ACK集群异常 Kubernetes集群创建失败的解决方法 添加Kubernetes集群节点的常见问题 容器镜像仓库构建服务失败问题排查 容器镜像服务源码绑定失败问题排查 ...

演练原子操作

可根据原子服务状态分类,查看当前环境中的故障原子操作信息,包括原子操作名称、操作编码、添加时间、状态、被引用次数等信息。说明 仅已发布状态下的演练原子操作可引用到故障演练中的故障注入环节。已废弃的原子操作无法被引用。

应用场景

能够解决多源监控集成:支持多个常见监控系统集成,简单配置即可完成集成对接。报警统一处理:所有报警进行集中降噪处理,抑制收敛,避免报警风暴。事件闭环管理:对报警生成事件,进行全生命周期管理,不遗漏重大事件。体系化故障闭环管理...

网站耗资源(客户程序故障常见问题

本文汇总了使用云虚拟主机出现网站耗资源(客户程序故障)时的常见问题。什么是网站耗资源(客户程序故障)?网站程序占用CPU及内存过多,是对资源的一种浪费。当您使用普通版共享云虚拟主机建站后,可能会因为网站程序编写不合理、代码...

什么是故障

核心功能故障应急:支持故障全局应急通告,电话、短信、邮件、IM多种通知渠道,确保故障关键进展及时通知至相关人员,加快信息流转;故障追踪:支持对故障的最新进展、故障影响面(影响服务)、舆情反馈、Timeline时间线进行在线化管理、...

应用故障自动诊断

常见故障自动诊断场景RT突增 下游业务导致的本应用的RT突增,您可以联系下游业务的负责人进行排查。应用变更导致的RT突增,您可以查看此次变更的具体变更进行排查。应用的某个服务导致RT突增,可以排查以下情况:服务是否在此时有发生...

配置故障注入

故障注入是一种模拟应用异常行为的技术,通过给应用注入特定故障,可以检测该应用的消费者处理异常情况的能力,从而提高系统的健壮性。本文介绍如何为多语言应用配置服务故障。创建故障注入规则 登录MSE治理中心控制台。在左侧导航栏选择微...

执行演练

在执行故障演练过程中,您可以实时查看演练进度、每个演练活动的运行状态及结果,同时也能够随时结束演练,进行恢复阶段的活动,清除故障演练影响。背景信息 一次完整的故障演练包括以下四个...后续步骤 停止演练 常见问题 故障演练常见问题

基本概念

为便于您更好的理解视频点播产品,您可以在使用前了解视频格式、视频编码、视频转码等基本概念。文件格式 我们知道操作系统中的文件名都有后缀,即扩展名,例如1.doc,2.jpg,3.avi等。设置扩展名的目的是让系统中的应用程序来识别并关联...

功能优势

丰富的故障场景 丰富的故障场景也是 AHAS Chaos 的一大特色,包括了以下场景:常见的基础设施资源例如CPU、内存、磁盘等。应用级别的故障注入,目前只支持 Java 应用,后续将陆续推出对于 NodeJs 和 C++ 的应用故障注入。云原生领域的演练...

为多语言应用配置故障注入

故障注入是一种模拟应用异常行为的技术,通过给应用注入特定故障,来检测该应用的消费者处理异常情况的能力,然后通过提升处理该异常情况能力的方式来提高系统的稳定性。本文介绍如何为多语言应用配置服务故障。创建故障注入规则 登录EDAS...

实例的节点故障处理机制

本文档介绍云数据库MongoDB版实例的节点故障处理机制。单节点实例 由于单节点实例架构的特殊性,单节点实例仅拥有一个节点。当节点发生故障后,系统会对故障节点进行检查与修复。节点故障期间实例的相关服务不可用。说明 单节点实例适用于...

故障注入

您可以通过故障注入功能向测试应用注入故障,检测应用面对异常时的处理情况。您可以根据检测的情况调整您的应用,以减少应用在正式使用时出现的异常问题。多用于测试环境。功能简介故障注入流程如下所示:在微服务中,其实现方式为:管控台...

常见问题

本文介绍容器服务ACK的常见问题。您在使用容器服务ACK时如果收到容器服务ACK返回的错误信息,可查阅容器服务错误代码汇总匹配解决方案。如果您没有收到具体的错误信息,可根据以下问题分类匹配问题场景和解决方案。入门FAQ 方案规划 容器...

API概览

GetProblemPreview 获取故障通知预览 UpdateProblemImprovement 更新故障复盘改进详情 CancelProblem 取消故障 CreateProblemSubtotal 故障新增备注小计 FinishProblem 故障完结 ListProblemSubtotals 故障小计列表 RecoverProblem 故障...

诊断决策树

对于未知的故障,您可以依据运维经验,编排出常见的排查路径,辅助快速故障定位。新建诊断决策树从左侧导航栏进入 故障诊断>诊断决策树 页面,单击 新建诊断决策树。在右侧新窗口中,配置诊断决策树信息,包括决策树名称、描述,超时...

故障注入

您可以通过故障注入功能向测试应用注入故障,检测应用面对异常时的处理情况。您可以根据检测的情况调整您的应用,以减少应用在正式使用时出现的异常问题。多用于测试环境。配置故障注入规则登录 SOFAStack 控制台。在左侧菜单栏选择 中间件...

如何排查Java场景下故障注入不生效的问题

为解决此类问题,在创建或编辑演练时,您可以在故障执行阶段选择开启Debug模式,并通过相关的日志信息来了解故障注入失败的原因。开启Debug模式 在查看目标演练的故障注入日志前,您需要先确认该演练的故障执行步骤是否已开启Debug模式。若...

如何管理事件

故障状态:处理中(升级时故障还在处理中),输入发现故障的时间、已恢复(升级时故障已恢复),输入故障生成的时间和故障恢复的时间;所属服务:升级故障所属的服务;影响服务:选择影响服务(可多选);进展摘要:处理人将事件升级为故障...

故障隔离

某个服务故障或者异常时,如果该服务触发熔断会造成整个服务的不可用。而故障隔离能够定位到异常的服务实例,实现实例级别精细化的隔离和摘流,使故障影响的范围更小、更可控。配置故障隔离规则登录 SOFAStack 控制台。在左侧菜单栏选择 ...

演练概述

基于阿里巴巴多年业务的真实线上故障库的积累,AHAS故障演练模块为您预定义了丰富的测试任务,检验应用的高可用能力。故障演练支持对部署在阿里云ECS实例、容器服务Kubernetes集群、K8s架构类应用、Java类应用进行故障演练。一次完整的故障...

错误码

错误码错误码描述故障排除指导-101业务链编码格式错误检查业务链编码长度是否有误,正确长度应为16位字符。102数据Key参数错误检查Key结构是否错误,正确格式应以下划线分隔的4部分字符串组成 VERSION_PK_TYPE_ID。103数据Value参数错误...

DDH故障迁移

一台DDH基于一台指定的物理服务器,可能会因为故障而自动停机。为了降低物理故障对您业务的影响,阿里云为您提供DDH故障迁移服务。您可以在创建DDH时或创建DDH后配置DDH故障迁移。创建DDH时,在其他设置区域,选中宿主机故障时自动迁移。...

FAQs

注意 故障发现时间:GTM可保障故障发现时间,目前默认的健康检查配置可以在故障的4分钟左右准确发现故障并切换;DNS切换同步时间:GTM无法保障全网的最终生效时间,因受限于全国各地运营商的TTL缓存设置以及网络环境不同,所以全网生效时间...

修改DDH故障迁移配置

为了降低物理故障对您业务的影响,阿里云为您提供DDH故障迁移服务。本章节介绍在创建DDH后如何修改DDH故障迁移配置。背景信息 故障迁移服务开启后,当DDH因故障停机时,会自动迁移至健康的DDH。若您未开启DDH故障迁移服务,DDH发生故障停机...

什么是故障演练

定位与解决问题的应急能力通过故障突袭,随机对系统注入故障,考察相关人员对问题的应急能力,以及问题上报、处理流程是否合理,达到以战养战,锻炼人定位与解决问题的能力。故障演练与AHAS服务体系 故障演练作为AHAS的一部分,与AHAS其他...

代码逻辑场景

本文列出了故障演练支持的代码逻辑场景。篡改Java方法返回值 修改Java指定方法的返回值,返回指定的值。参数名称 是否必选 默认值 参数说明 类名 是 无 完整的类名,包含包名。例如:com.alibaba.service.XxxService。如果模拟接口故障,需...

故障排查

本文介绍微服务引擎MSE在使用过程中常见问题的故障分析和排查流程。微服务注册配置中心问题排查 在浏览器中输入XXX:8848/nacos,访问MSE的Nacos注册中心时返回404错误。具体操作,请参见通过“XXX:8848/nacos”访问MSE的Nacos注册中心时...

步骤五:应用容灾

当被保护的服务器完成阿里云复制服务(AReS)安装并重启后,您就可以对受保护的服务器启动、停止容灾复制、故障切换、容灾演练等一系列的应用容灾操作。前提条件 已安装案例云复制服务。更多信息,请参见步骤四:安装阿里云复制服务。操作...

读多写少型业务场景多活实践

多活容灾MSHA(Multi-Site High Availability)是在阿⾥巴巴电商业务环境演进出的多活容灾架构解决⽅案。本文通过一个电商业务导购链路案例,介绍典型的读多写少型业务场景,如何基于多活容灾...相关文档 什么是故障演练 为什么需要多活容灾?

读多写少型业务场景多活实践

多活容灾MSHA(Multi-Site High Availability)是在阿⾥巴巴电商业务环境演进出的多活容灾架构解决⽅案。本文通过一个电商业务导购链路案例,介绍典型的读多写少型业务场景,如何基于多活容灾...相关文档 什么是故障演练 为什么需要多活容灾?

同城多活架构实践

虽然故障最终得以解决,但故障导致的客户流失和企业口碑影响,对快速发展的业务造成不小的打击,迫使企业开始重视同城多活容灾能力的建设,以及定期做故障演练确保故障恢复能力的有效性。同城多活架构改造 基于MSHA多活容灾解决方案,您...

同城多活架构实践

虽然故障最终得以解决,但故障导致的客户流失和企业口碑影响,对快速发展的业务造成不小的打击,迫使企业开始重视同城多活容灾能力的建设,以及定期做故障演练确保故障恢复能力的有效性。同城多活架构改造 基于MSHA多活容灾解决方案,您...

什么是消息演练

消息演练概述 目前市面上有RocketMQ、Kafka、RabbitMQ等流行的消息中间件服务,消息演练功能将这些常见的中间件进行了统一抽离,为消息服务安排分配了精选后的演练最佳实践,您不需要自己去研究分析每种消息服务需要什么演练场景,仅需选择...

演练场景

故障演练是业务系统上线前必要的演练环节,旨在对应急预案的可行性,进一步完成应急预案,从而帮助提升产品、集群、机房的稳定性,减少故障的发生,提高故障应急效率,进而提升产品竞争力。一个完整的故障演练过程为 创建故障原子服务>...
< 1 2 3 4 ... 200 >
跳转至: GO

新品推荐

你可能感兴趣

热门推荐

新人福利专场 阿里云试用中心 企业支持计划 飞天会员助力企业低成本上云 智能财税30天免费试用 云解析DNS新用户首购低至36元/年起 ECS限时升级特惠6.5折