运维事件中心

运维事件中心是企业业务连续的运营管理平台,提供丰富的监控集成、强大的报警降噪、可靠的通知、灵活的事件流转、基于ITIL的故障管理等功能,一站式管理、多端协同,帮助企业实现更实时的数字化管理、更快的故障响应、更短的故障时长、更...

负载均衡

负载均衡SLB(Server Load Balancer)是一种对流量进行按需分发的服务,通过将流量分发到不同的后端服务来扩展应用系统的服务吞吐能力,并且可以消除系统中的单点故障,提升应用系统的可用

Node.js 性能平台

Node.js 性能平台(Node.js Performance Platform)是面向中大型 Node.js 应用提供性能监控、安全提醒、故障排查、性能优化等服务的整体解决方案。\nNode.js 性能平台凭借对 Node.js 内核深入的理解,提供完善的工具链和服务,协助客户主动、...

常见问题

运维管理 容器应用服务常见问题经典应用服务常见问题 中间件 SOFABoot 常见问题微服务常见问题微服务故障排查之 DRM微服务故障排查之限流微服务故障排查之 RPC服务网格-故障排查消息队列常见问题任务调度常见问题分布式链路跟踪常见问题...

如何管理故障

每一个改进措施,需可落地可验收,确保改进措施对提升业务连续、规避重复类似故障有帮助及效果。更新故障通告在故障页面点击故障标题进入故障详情页面;2.在故障详情页面点击更新故障通知按钮出现故障通告预览弹窗;3.在故障通告预览弹窗...

故障演练常见问题

欢迎您反馈在使用故障演练过程中遇到的问题,目前提供以下常见问题供您参考。单个演练活动成功状态怎么判断?因为一个活动可能会有很多目标机器,当所有机器执行完毕之后,如果有机器没有执行成功,那么这个演练活动就会被系统判断为失败。...

应用场景

故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务连续形成改进。其他应用场景降低管理难度:同时维护多套监控系统,操作成本高,降低管理难度。规避报警风暴:单监控源的报警不能...

什么是消息演练

各种中间组件会相继被引入系统,其中分布式消息服务更是系统中必不可少的一环,这些消息服务之前并没有实际在系统中经历过真实流量考验,很难发现一些其中隐患或缺陷,急需通过故障演练来评测高可用。AHAS提供了强大且高灵活故障演练...

API概览

GetProblem 查询故障详情 ListProblems 查询故障列表 ListProblemTimeLines 查询故障时间线列表 GenerateProblemPictureLink 获取故障图片链接 GenerateProblemPictureUploadSign 故障图片上传获取签名信息 集成配置 API 描述 ...

产品优势

技术风险防控效率有效提升通过高可用管理平台技术风险防控能力,自动化、标准化、例行化日常运维,降低操作复杂度,运维结果清晰可见,实现风险事件的闭环管理。通过日常巡检主动感知业务运行风险,在对业务造成影响前及时处理。自动化故障...

执行演练

在执行故障演练过程中,您可以实时查看演练进度、每个演练活动的运行状态及结果,同时也能够随时结束演练,进行恢复阶段的活动,清除故障演练影响。背景信息 一次完整的故障演练包括以下四个阶段:安装探针>创建演练>执行演练>...

功能优势

丰富的故障场景 丰富的故障场景也是 AHAS Chaos 的一大特色,包括了以下场景:常见的基础设施资源例如CPU、内存、磁盘等。应用级别的故障注入,目前只支持 Java 应用,后续将陆续推出对于 NodeJs 和 C++ 的应用故障注入。云原生领域的演练...

应用故障自动诊断

常见故障自动诊断场景RT突增 下游业务导致的本应用的RT突增,您可以联系下游业务的负责人进行排查。应用变更导致的RT突增,您可以查看此次变更的具体变更进行排查。应用的某个服务导致RT突增,可以排查以下情况:服务是否在此时有发生...

网站耗资源(客户程序故障常见问题

本文汇总了使用云虚拟主机出现网站耗资源(客户程序故障)时的常见问题。什么是网站耗资源(客户程序故障)?网站程序占用CPU及内存过多,是对资源的一种浪费。当您使用普通版共享云虚拟主机建站后,可能会因为网站程序编写不合理、代码...

什么是故障

故障等级由影响程度来确定:影响程度以受影响产品/服务/功能的重要+影响面(如受影响用户数、损失的金额、外部舆情等)+故障时间来确定;功能重要:分核心、次核心和非核心;次核心功能和非核心功能的故障级别,相比核心依次降一级、二...

故障隔离

时间窗口大小设置故障检测的时间,与 时间窗口内最少调用次数 配合,只有在指定时间段内进行指定次数的请求才会被采集。取值范围:(1,60]单位:秒时间窗口内最少调用次数设置指定时间内的最少调用请求次数。取值≥0。异常比例阈值(%)设置...

FAQs

注意 故障发现时间:GTM可保障故障发现时间,目前默认的健康检查配置可以在故障的4分钟左右准确发现故障并切换;DNS切换同步时间:GTM无法保障全网的最终生效时间,因受限于全国各地运营商的TTL缓存设置以及网络环境不同,所以全网生效时间...

系统弱口令

漏洞描述弱口令漏洞指系统口令的长度太短或者复杂度不够,如仅包含数字或字母等。弱口令容易被破解,一旦被攻击者获取,可用来直接登录系统,读取甚至修改网站代码。修复方案修改口令,增加口令复杂度,如包含大小写字母、数字和特殊字符等...

故障排查

本文介绍阿里云容器服务ACK集群在使用过程中常见问题的故障分析和排查流程。ACK集群异常 Kubernetes集群创建失败的解决方法 添加Kubernetes集群节点的常见问题 容器镜像仓库构建服务失败问题排查 容器镜像服务源码绑定失败问题排查 ...

主备方案介绍

云数据库HBase存储海量大数据,在业务场景中往往承载着重要数据,为保障数据的高可用和安全,云数据库HBase提供了主备双活和主备容灾特性。本文介绍云数据库HBase的主备双活和主备容灾特性功能。使用场景 主备双活:大数据量随机读响应...

TairHash命令

[VER/ABS version][NOACTIVE]时间复杂度 O(1)命令描述 在key指定的TairHash中为一个field设置绝对过期时间,精确到毫秒。参数及选项说明 参数或选项 说明 key TairHash的key,用于指定作为命令调用对象的TairHash。field TairHash中的一个...

配置故障注入

故障注入是一种模拟应用异常行为的技术,通过给应用注入特定故障,可以检测该应用的消费者处理异常情况的能力,从而提高系统的健壮。本文介绍如何为多语言应用配置服务故障。创建故障注入规则 登录MSE治理中心控制台。在左侧导航栏选择微...

故障注入

您可以通过故障注入功能向测试应用注入故障,检测应用面对异常时的处理情况。您可以根据检测的情况调整您的应用,以减少应用在正式使用时出现的异常问题。多用于测试环境。功能简介故障注入流程如下所示:在微服务中,其实现方式为:管控台...

常见问题-FAQ

注意 标准版最快可在4分钟左右准确发现故障并切换故障发现时间:GTM可保障故障发现时间,目前默认的健康检查配置可以在故障的4分钟左右准确发现故障并切换;全网生效时间:GTM无法保障全网的最终生效时间,因受限于全国各地运营商的TTL缓存...

为多语言应用配置故障注入

故障注入是一种模拟应用异常行为的技术,通过给应用注入特定故障,来检测该应用的消费者处理异常情况的能力,然后通过提升处理该异常情况能力的方式来提高系统的稳定。本文介绍如何为多语言应用配置服务故障。创建故障注入规则 登录EDAS...

诊断决策树

对于未知的故障,您可以依据运维经验,编排出常见的排查路径,辅助快速故障定位。新建诊断决策树从左侧导航栏进入 故障诊断>诊断决策树 页面,单击 新建诊断决策树。在右侧新窗口中,配置诊断决策树信息,包括决策树名称、描述,超时...

什么是应用高可用服务AHAS

开源软件和云服务的多样性,开发语言的异构性,以及企业IT团队的组织和能力差异,都提高了标准化的复杂性。在此背景下,架构感知功能应运而生。它会采集和分析操作系统及第三方标准接口,捕捉进程级的调用关系,并使用特征库算法识别进程所...

TairZset命令

EXZADD 类别 说明 语法 EXZADD key[NX|XX][CH][INCR]score member[score member.]时间复杂度 O(N)命令描述 将指定的分数与成员信息存储到TairZset结构的Key中,支持指定多个分数与成员,系统会根据Key和成员是否存在,执行不同的策略:说明...

如何管理事件

故障状态:处理中(升级时故障还在处理中),输入发现故障时间、已恢复(升级时故障已恢复),输入故障生成的时间故障恢复的时间;所属服务:升级故障所属的服务;影响服务:选择影响服务(可多选);进展摘要:处理人将事件升级为故障...

步骤五:应用容灾

如果检查后发现当前时间点应用状态不符合要求,例如数据库一致问题,或者源端被污染的数据已经被同步到另一个地域,请在确认故障切换前,选择更多>故障切换>切换恢复点。说明 切换恢复点操作与故障切换操作类似,仅需选择更早的...

跨地域容灾

如果检查后发现当前时间点应用状态不符合要求,例如数据库一致问题,或者源端被污染的数据已经被同步到另一个地域,请在确认故障切换前,单击更多>故障切换>切换恢复点操作。说明 切换恢复点操作与故障切换操作类似,仅需选择更早...

Redis客户端重试指南

慢查询引起了请求堵塞 执行时间复杂度为O(N)的操作,引发慢查询和请求的堵塞,此时,客户端发起的其他请求可能出现暂时失败。复杂的网络环境 由于客户端与Redis服务器之间复杂网络环境引起,可能出现偶发的网络抖动、数据重传等问题,...

跨可用区容灾

当生产站点因为不可抗力因素(比如火灾、地震)或者设备故障(软、硬件破坏)导致应用在短时间内无法恢复时,混合云容灾服务支持业务的跨可用区(Zone)的容灾能力,对整体的应用做容灾备份来应对单地区的故障,满足业务的RTO/RPO核心指标...

强弱依赖治理概述

随着分布式微服务的发展,系统正在变得越来越复杂,一个普通的应用也可能依赖了很多其他的服务。在没有明确强弱依赖关系的前提下,系统很难进行限流降级、优化改造等操作。强弱依赖治理就是通过科学的手段持续稳定地得到应用间依赖关系、...

跨可用区容灾

当生产站点因为不可抗力因素(比如火灾、地震)或者设备故障(软、硬件破坏)导致应用在短时间内无法恢复时,混合云容灾服务支持业务的跨可用区(Availability Zone)的容灾能力,对整体的应用做容灾备份来应对单地区的故障,满足业务的RTO...

故障注入

您可以通过故障注入功能向测试应用注入故障,检测应用面对异常时的处理情况。您可以根据检测的情况调整您的应用,以减少应用在正式使用时出现的异常问题。多用于测试环境。配置故障注入规则登录 SOFAStack 控制台。在左侧菜单栏选择 中间件...

功能特性

支持合理的检测逻辑复杂度,避免过多检测数据导致的误报,降低误报率;支持多种形式数据编码的自适应解码,避免利用各种编码形式的绕过。CC恶意攻击防护 对单一源IP的访问频率进行控制,基于重定向跳转验证、人机识别等。针对海量慢速请求...

什么是故障演练

故障演练是一款遵循混沌工程实验原理并融合了阿里巴巴内部实践的产品,提供丰富故障场景,能够帮助分布式系统提升容错和可恢复。流程 故障演练建立了一套标准的演练流程,包含准备阶段、执行阶段、检查阶段和恢复阶段。通过四阶段的...

代码逻辑场景

本文列出了故障演练支持的代码逻辑场景。篡改Java方法返回值 修改Java指定方法的返回值,返回指定的值。参数名称 是否必选 默认值 参数说明 类名 是 无 完整的类名,包含包名。例如:com.alibaba.service.XxxService。如果模拟接口故障,需...

跨地域容灾

主系统和容灾系统部署在不同的地域,提供容灾即服务,且RPO可以低至1分钟、RTO低至15分钟的高可靠的业务持续保障,有效避免了地域灾害导致的系统故障。准备工作 在实现跨地域容灾之前,您需要选择一个不同于生产环境的地域作为容灾目标...
< 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 物联网无线连接服务 SSL证书 轻量应用服务器 商标 短信服务
这些文档可能帮助您
通过控制台使用ECS实例(快捷版) 建站零基础入门 地域与网络连通性 ALB快速入门 ECS入门概述 远程连接Windows服务器

新品推荐

你可能感兴趣

热门推荐

新人福利专场 阿里云试用中心 企业支持计划 飞天会员助力企业低成本上云 智能财税30天免费试用 云解析DNS新用户首购低至36元/年起 ECS限时升级特惠6.5折