运维事件中心

运维事件中心是企业业务连续性的运营管理平台,提供丰富的监控集成、强大的报警降噪、可靠的通知、灵活的事件流转、基于ITIL的故障管理等功能,一站式管理、多端协同,帮助企业实现更实时的数字化管理、更快的故障响应、更短的故障时长、更...

全局流量管理

全局流量管理通过DNS实现应用服务的就近访问接入、多地址负载均摊,同时根据健康检查进行DNS Failover,实现应用服务的同城多活故障隔离和异地容灾。

负载均衡

负载均衡SLB(Server Load Balancer)是一种对流量进行按需分发的服务,通过将流量分发到不同的后端服务来扩展应用系统的服务吞吐能力,并且可以消除系统中的单点故障,提升应用系统的可用性。

应用高可用服务 AHAS

应用高可用服务AHAS是一款专注于提高应用高可用能力的SaaS产品,提供应用架构自动探测、故障注入式高可用能力演练、一键应用防护和增加功能开关等功能,可以快速低成本地提升应用可用性。

数据库自治服务 DAS

数据库自治服务DAS(Database Autonomy Service)是一种基于机器学习和专家经验实现数据库自感知、自修复、自优化、自运维及自安全的云服务,帮助您消除人工操作引发的服务故障,有效保障数据库服务的稳定、安全及高效。

Node.js 性能平台

Node.js 性能平台(Node.js Performance ...应用提供性能监控、安全提醒、故障排查、性能优化等服务的整体性解决方案。\nNode.js 性能平台凭借对 Node.js 内核深入的理解,提供完善的工具链和服务,协助客户主动、快速发现和定位线上问题。

云数据库 OceanBase

自主研发的金融级分布式关系数据库,在普通硬件上实现金融级高可用,在金融行业首创“三地五中心”城市级故障自动无损容灾新标准,同时具备在线水平扩展能力,创造了 6100万次/秒处理峰值的业内纪录,在功能、稳定性、可扩展性、性能方面都...

性能分析

性能分析服务为移动 App 提供实时线上性能数据的“采集-分析-监控-告警...Android/iOS 应用类型,帮助客户建立 5 分钟线上故障感知能力,并与崩溃分析/远程日志服务配合使用,构建异常“感知-定位-恢复”的运维能力闭环,提升 App 使用体验。

崩溃分析

崩溃分析服务为移动 App 提供实时线上稳定性相关数据的“采集-分析-监控-告警”能力...应用类型,帮助客户建立 5 分钟线上故障感知能力,并与性能分析/远程日志服务配合使用,构建异常“感知-定位-恢复”的运维能力闭环,提升 App 使用体验。

活动

阿里云活动规则和常见问题介绍文档。
来自: 首页 >活动

IoT固件安全检测

IoT固件安全检测是专门针对物联网设备固件提供安全风险检测、安全漏洞扫描的服务,覆盖16类常见的高危风险。

Web 应用防火墙

阿里云Web应用防火墙基于云安全大数据能力,有效防御各类OWASP常见Web攻击并过滤海量恶意CC攻击,避免您的网站资产数据泄露,保障网站业务安全性与可用性。

阿里云安全产品和技术

安全公告和技术为您提供阿里云检测到的全球范围内安全漏洞信息,并为您提供相关的处置建议,帮助您预防常见安全威胁和全面提升云上环境的安全性。

图计算服务

图计算服务是新一代一站式图数据管理和分析平台,支持图数据建模、导入和修改、支持Apache TinkerPop标准Gremlin语言进行图查询及常见图分析算法,具有数据加载快、规模可扩展、查询延时低(毫秒级)和离在线混合引擎与共享存储等优势。

常见问题

运维管理 容器应用服务常见问题经典应用服务常见问题 中间件 SOFABoot 常见问题微服务常见问题微服务故障排查之 DRM微服务故障排查之限流微服务故障排查之 RPC服务网格-故障排查消息队列常见问题任务调度常见问题分布式链路跟踪常见问题...

故障演练常见问题

欢迎您反馈在使用故障演练过程中遇到的问题,目前提供以下常见问题供您参考。单个演练活动成功状态怎么判断?因为一个活动可能会有很多目标机器,当所有机器执行完毕之后,如果有机器没有执行成功,那么这个演练活动就会被系统判断为失败。...

概览

集成问题 集成Android SDK常见问题 集成iOS SDK常见问题 集成Mac SDK常见问题 集成Windows SDK常见问题 集成Web SDK常见问题 Android SDK动态加载so文件方案 质量问题 客户端入会失败常见原因 客户端与服务端连通异常 ...

耗资源(客户程序故障常见问题

本文汇总了使用云虚拟主机出现耗资源(客户程序故障常见问题。什么是耗资源(客户程序故障)?网站程序占用CPU及内存过多,是对资源的一种浪费。当您使用普通版共享云虚拟主机时,可能会因为网站程序编写不合理等原因,造成服务器...

应急预案:专有云控制台服务异常的应急处理方法

在专有云环境中,dtcenter服务出现异常,导致专有云控制台出现异常,针对一些常见故障场景给出以下应急处理方法。3.解决方案 3.1.环境检查 详情请参见以下KB文档。KB 116252 通用方案:专有云控制台服务异常的应急处理方法
来自: 首页

如何排查Java场景下故障注入不生效的问题

在对Java进程注入故障时,可能会出现故障注入失败的情况。为解决此类问题,在创建或编辑演练时,您可以在故障执行阶段选择开启Debug模式,并通过相关的日志信息来了解故障注入失败的原因。开启Debug模式 在查看目标演练的故障注入日志前,...

如何管理故障

故障发生条件当事件重要程度上升、整体影响面恶化、持续长时间未解决,综合评估已达到故障时(P1-P4),处理人可手动将事件升级为故障。故障过程故障过程用于记录管理故障处理的全过程。当故障处于 处理中/已恢复 状态时,故障详情默认进入...

实例的节点故障处理机制

本文档介绍云数据库MongoDB版实例的节点故障处理机制。单节点实例 由于单节点实例架构的...URI进行连接,如果某个Mongos节点出现故障,客户端能自动进行故障切换,将请求分散到状态正常的Mongos节点上,详情请参见分片集群实例连接说明。

应用故障自动诊断

当应用没有被诊断出故障时,不代表应用不存在潜在的问题。在应用总览页面上方的应用名称右侧单击。在弹出的诊断报告中查看故障现象和原因分析。诊断报告组成 诊断报告主要由4个部分组成:诊断详情、故障定界、根因分析和数据支持。诊断详情...

执行演练

在执行故障演练过程中,您可以实时查看演练进度、每个演练活动的运行状态及结果,同时也能够随时结束演练,进行恢复阶段的活动,清除故障演练影响。背景信息 一次完整的故障演练包括以下四个...后续步骤 停止演练 常见问题 故障演练常见问题

应用场景

能够解决多源监控集成:支持多个常见监控系统集成,简单配置即可完成集成对接。报警统一处理:所有报警进行集中降噪处理,抑制收敛,避免报警风暴。事件闭环管理:对报警生成事件,进行全生命周期管理,不遗漏重大事件。体系化故障闭环管理...

故障注入

您可以通过故障注入功能向测试应用注入故障,检测应用面对异常的处理情况。您可以根据检测的情况调整您的应用,以减少应用在正式使用出现的异常问题。多用于测试环境。功能简介故障注入流程如下所示:在微服务中,其实现方式为:管控台...

功能优势

丰富的故障场景 丰富的故障场景也是 AHAS Chaos 的一大特色,包括了以下场景:常见的基础设施资源例如CPU、内存、磁盘等。应用级别的故障注入,目前只支持 Java 应用,后续将陆续推出对于 NodeJs 和 C++ 的应用故障注入。云原生领域的演练...

诊断决策树

对于已知的明确故障,可以根据诊断现象,编排诊断决策树,进而故障发生执行,完成故障定位。对于未知的故障,您可以依据运维经验,编排出常见的排查路径,辅助快速故障定位。新建诊断决策树从左侧导航栏进入 故障诊断>诊断决策树 页面,...

DDH故障迁移

创建DDH时,在其他设置区域,选中宿主机故障时自动迁移。创建DDH的详细步骤,请参见创建DDH。创建DDH后,修改DDH故障迁移配置的步骤,请参见修改DDH故障迁移配置。注意 本地SSD型DDH(例如本地SSD型i2)不支持自行手动迁移和故障时自动迁移...

故障注入

您可以通过故障注入功能向测试应用注入故障,检测应用面对异常的处理情况。您可以根据检测的情况调整您的应用,以减少应用在正式使用出现的异常问题。多用于测试环境。配置故障注入规则登录 SOFAStack 控制台。在左侧菜单栏选择 中间件...

如何管理事件

进展摘要:处理人将事件升级为故障时故障当时的一个进展情况;主要处理人:故障应急处理的小组应急主要处理人,默认为事件默认分配人;应急协同组:故障应急处理的小组(可多选)。手动新增事件点击首页左侧的新增事件按钮;点击新增事件...

API概览

故障新增备注小计 FinishProblem 故障完结 ListProblemSubtotals 故障小计列表 RecoverProblem 故障恢复 ReplayProblem 故障复盘 RevokeProblemRecovery 故障撤销恢复 UpdateProblemNotice 更新故障通告 CreateProblemMeasure 创建故障改进...

什么是故障

本文主要介绍什么是故障。定义在日常运营中,无论什么原因导致业务服务中断、服务品质下降或用户服务体验下降的现象,称为故障,但不包括用户侧环境或用户自身操作引起的问题。“用户体验下降”说明故障的核心要关注用户感受,可通过客服...

修改DDH故障迁移配置

本地SSD型DDH(例如本地SSD型i2)不支持自行手动迁移和故障时自动迁移。如果本地SSD型DDH出现故障,您可以提交工单申请人工迁移,但迁移后本地盘数据会丢失。DDH因故障迁移完成后,DDH ID及ECS实例的元数据(例如实例ID、私有IP地址、公网...

故障隔离

最大隔离数量设置服务器的隔离数量,即多台服务器故障时最多隔离几台。取值≥ 0。流量精确匹配(可选)符合流量精确匹配的流量才进行隔离。可配置多条匹配规则,各匹配规则之间是与的关系。参数配置如下:字段:选择 系统字段。字段名:...

演练概述

执行演练:将故障注入机器,可通过演练需曲线、演练参数、演练日志等检查故障注入的效果是否符合预期。停止阶段:清除故障。当故障演练自动结束、您主动终止或者演练中的任何环节出现异常后,系统都会进入恢复阶段,自动清除相应的故障,...

ack-node-repairer

当节点出现故障时,自愈系统会自动对故障所在节点触发相应的修复操作。当故障被修复后,NPD会修改故障状态,达到故障检测以及修复的闭环。运维人员也可以自定义需要采取修复操作的故障以及具体的修复操作。NPD是Kubernetes节点诊断的工具,...

容灾恢复

当 IP 的异常率大于服务平均异常率,且达到一定比例,单机故障剔除会对该服务+IP 的维度进行权重降级。如果该服务 IP 维度的权重并没有降为 0,那么当该服务+IP 维度的调用情况正常,则会对其进行权重恢复。整个计算和调控过程异步进行...

代码逻辑场景

本文列出了故障演练支持的代码逻辑场景。篡改Java方法返回值 修改Java指定方法的返回值,返回指定的值。参数名称 是否必选 默认值 参数说明 类名 是 无 完整的类名,包含包名。例如:com.alibaba.service.XxxService。如果模拟接口故障,需...

FAQs

答:经过测试团队对GTM多次测试验证,当应用服务发生故障时,GTM能在GTM能在3分钟左右准确发现故障并切换。全网故障恢复时间 故障发现时间+全网生效时间。说明 受限于拨测平台探点发生变化和全国各地运营商TTL缓存原因,如使用不同的拨测...
< 1 2 3 4 ... 195 >
共有195页 跳转至: GO

新品推荐

新人福利专场 阿里云试用中心 企业支持计划 飞天会员助力企业低成本上云 智能财税30天免费试用 云解析DNS新用户首购低至36元/年起 ECS限时升级特惠6.5折

你可能感兴趣

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化

热门推荐

切换为移动版

新人福利专场 阿里云试用中心 企业支持计划 飞天会员助力企业低成本上云 智能财税30天免费试用 云解析DNS新用户首购低至36元/年起 ECS限时升级特惠6.5折