运维事件中心

运维事件中心是企业业务连续性的运营管理平台,提供丰富的监控集成、强大的报警降噪、可靠的通知、灵活的事件流转、基于ITIL的故障管理等功能,一站式管理、多端协同,帮助企业实现更实时的数字化管理、更快的故障响应、更短的故障时长、更...

负载均衡

负载均衡SLB(Server Load Balancer)是一种对流量进行按需分发的服务,通过将流量分发到不同的后端服务来扩展应用系统的服务吞吐能力,并且可以消除系统中的单点故障,提升应用系统的可用性。

全局流量管理

全局流量管理通过DNS实现应用服务的就近访问接入、多地址负载均摊,同时根据健康检查进行DNS Failover,实现应用服务的同城多活故障隔离和异地容灾。

云企业

云企业帮助您在VPC间,VPC与本地数据中心间搭建私通信通道,通过路由自动分发及学习,提高网络的快速收敛和跨网络通信的质量及安全性,实现全资源的互通,帮助您打造一张具有企业级规模和通信能力的互联网络。

性能分析

性能分析服务为移动 App 提供实时线上性能数据的...性能分析服务支持 Android/iOS 应用类型,帮助客户建立 5 分钟线上故障感知能力,并与崩溃分析/远程日志服务配合使用,构建异常“感知-定位-恢复”的运维能力闭环,提升 App 使用体验。

崩溃分析

崩溃分析服务为移动 App 提供实时线上稳定性相关...崩溃分析服务支持 Android/iOS/H5 应用类型,帮助客户建立 5 分钟线上故障感知能力,并与性能分析/远程日志服务配合使用,构建异常“感知-定位-恢复”的运维能力闭环,提升 App 使用体验。

Node.js 性能平台

Node.js 性能平台(Node.js Performance Platform)是面向中大型 Node.js 应用提供性能监控、安全提醒、故障排查、性能优化等服务的整体性解决方案。\nNode.js 性能平台凭借对 Node.js 内核深入的理解,提供完善的工具链和服务,协助客户主动、...

连接 PrivateLink

连接(PrivateLink)能够实现专有网络VPC与阿里云上的服务建立安全稳定的私有连接,简化网络架构,实现私访问服务,避免通过公网访问服务带来的潜在安全风险。

云数据库 OceanBase

OceanBase 是阿里巴巴和蚂蚁金服 100%自主研发的金融级分布式关系数据库,在普通硬件上实现金融级高可用,在金融行业首创“三地五中心”城市级故障自动无损容灾新标准,同时具备在线水平扩展能力,创造了 6100万次/秒处理峰值的业内纪录,...

数据库自治服务 DAS

数据库自治服务DAS(Database Autonomy Service)是一种基于机器学习和专家经验实现数据库自感知、自修复、自优化、自运维及自安全的云服务,帮助您消除人工操作引发的服务故障,有效保障数据库服务的稳定、安全及高效。

应用高可用服务 AHAS

应用高可用服务AHAS是一款专注于提高应用高可用能力的SaaS产品,提供应用架构自动探测、故障注入式高可用能力演练、一键应用防护和增加功能开关等功能,可以快速低成本地提升应用可用性。

如何管理故障

可对故障根因进行原因检查并结构化录入,检查点包括:故障原因、最近活动、注入方式、恢复方式等;关联故障期间的故障变更,新增故障改进措施等操作。故障状态处理中:处理中仍未恢复的故障;已恢复:故障对处理中的故障做恢复操作后是已...

什么是故障

包括根因检查点(如故障原因、最近活动、注入方式、恢复方式等)、故障变更检查、监控检查,并需要对每一个故障明确责任人及团队;故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务...

API概览

GetProblemPreview 获取故障通知预览 UpdateProblemImprovement 更新故障复盘改进详情 CancelProblem 取消故障 CreateProblemSubtotal 故障新增备注小计 FinishProblem 故障完结 ListProblemSubtotals 故障小计列表 RecoverProblem 故障...

更新故障复盘改进详情

problemReason":"故障原因A","recentActivity":"2","injectionMode":"1","recoveryMode":"2","discoverSource":1,"userReport":10,"monitorSourceName":"Zabbix","relationChanges":"关联变更","dutyUserId":1231,"replayDutyUserId":1213...

应用故障自动诊断

在EDAS中进入应用总览页面时,会按照您自定义的时间段对该应用的运行情况做一个自动诊断。...数据支持:这一部分包含了得到推测结论的数据支持,不同故障原因的诊断报告中包含的分析数据将不一样。图 1.故障诊断报告示例图-RT诊断

如何管理事件

故障状态:处理中(升级时故障还在处理中),输入发现故障的时间、已恢复(升级时故障已恢复),输入故障生成的时间和故障恢复的时间;所属服务:升级故障所属的服务;影响服务:选择影响服务(可多选);进展摘要:处理人将事件升级为故障...

故障详情

故障详情 调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求头 该接口使用公共请求头,无特殊请求头。请参见公共请求参数文档。请求语法 POST/problem/...

无法连接Windows实例

故障原因 可能是网卡驱动未开启或网卡配置有问题。解决方法 使用管理终端登录实例,检查网卡驱动,如果存在异常,则重新安装。步骤三:检查重置实例密码后是否未重启实例 确认是否存在故障现象,如果存在,则参考本步骤解决问题,如果不...

诊断网页加载过慢的问题

慢加载详情页面顶部的页面信息区域展示了本次访问的客户端IP地址、浏览器、操作系统等信息,帮助您确认故障原因。慢加载详情页面的页面资源加载瀑布图区域展示了页面静态资源加载的瀑布图,帮助您快速定位资源加载的性能瓶颈。慢加载详情...

故障取消

cancelReason Long Body 否 取消原因 取消原因 problemNotifyType Long Body 否 PROBLEM_NOTIFY PROBLEM_NOTIFY 通告类型 PROBLEM_NOTIFY:故障通告 PROBLEM_UPDATE:故障更新 PROBLEM_UPGRADE:故障升级 PROBLEM_DEGRADE:故障降级 ...

支持计划

4.阿里云支持计划服务内容4.1阿里云支持计划目录支持目录基础服务商业级企业级顶级售后支持方式热线电话、官网在线咨询、工单支持热线电话、官网在线咨询、工单支持热线电话、官网在线咨询、工单支持、专属企业钉钉群(推荐使用)热线电话...

应用场景

能够解决故障应急:支持故障全局应急通告,电话、短信、邮件、IM多种通知渠道,加快信息流转。故障跟踪:支持对故障进展、故障影响面、舆情反馈、Timeline进行在线化管理、协同,提升故障处理效率。故障复盘:基于最佳实践经验,沉淀了对...

常见问题-FAQ

注意 标准版最快可在4分钟左右准确发现故障并切换故障发现时间:GTM可保障故障发现时间,目前默认的健康检查配置可以在故障的4分钟左右准确发现故障并切换;全生效时间:GTM无法保障全的最终生效时间,因受限于全国各地运营商的TTL缓存...

诊断决策树

您可以通过诊断决策树,编排故障排查的过程。对于已知的明确故障,可以根据诊断现象,编排诊断决策树,进而故障发生时执行,完成故障定位。对于未知的故障,您可以依据运维经验,编排出常见的排查路径,辅助快速故障定位。新建诊断决策树从...

故障注入

您可以通过故障注入功能向测试应用注入故障,检测应用面对异常时的处理情况。您可以根据检测的情况调整您的应用,以减少应用在正式使用时出现的异常问题。多用于测试环境。功能简介故障注入流程如下所示:在微服务中,其实现方式为:管控台...

故障复盘改进详情

0c4840fd3812 幂等校验token 返回数据 名称 类型 示例值 描述 requestId String 4361a0e1-6747-4834-96ce-0c4840fd3811 Id of the request data Object data problemId String 231231 故障ID problemReason String 故障的原因 故障原因 ...

故障演练常见问题

故障不生效的原因较多,可能是参数配置不正确或无对应的请求命中,但故障规则已成功下发,故需要计费。刚刚购买的资源包为什么会被扣减次数?因为购买前已产生欠费,购买资源包后会先扣减所欠的次数。子账号的消费是否独立计费?不是,与主...

什么是故障演练

故障演练是一款遵循混沌工程实验原理并融合了阿里巴巴内部实践的产品,提供丰富故障场景,能够帮助分布式系统提升容错性和可恢复性。流程 故障演练建立了一套标准的演练流程,包含准备阶段、执行阶段、检查阶段和恢复阶段。通过四阶段的...

功能更新记录

本文介绍故障演练Chaos历次发布涉及的功能变更,帮助您了解故障演练的发布动态。2021年9月 功能名称 功能概述 支持资源包类型 支持地域 发布时间 可视化演练 可视化演练是基于架构视图来控制爆炸半径,并通过可视化的交付方式,直接面向...

FAQs

说明 受限于拨测平台探点发生变化和全国各地运营商TTL缓存原因,如使用不同的拨测平台、以及在不同的测试时间,全生效测试结果会发生变化。注意 故障发现时间:GTM可保障故障发现时间,目前默认的健康检查配置可以在故障的4分钟左右准确...

故障注入

您可以通过故障注入功能向测试应用注入故障,检测应用面对异常时的处理情况。您可以根据检测的情况调整您的应用,以减少应用在正式使用时出现的异常问题。多用于测试环境。配置故障注入规则登录 SOFAStack 控制台。在左侧菜单栏选择 中间件...

如何排查Java场景下故障注入不生效的问题

在对Java进程注入故障时,可能会出现故障注入失败的情况。为解决此类问题,在创建或编辑演练时,您可以在故障执行阶段选择开启Debug模式,并通过相关的日志信息来了解故障注入失败的原因。开启Debug模式 在查看目标演练的故障注入日志前,...

主备方案介绍

主备容灾:当云数据库HBase实例因不可预料的原因(例如设备故障、机房断电断等)发生故障,容灾机制可用于保障数据的一致性和业务可用性。功能优势 主备双活:请求低毛刺。故障自动容错。资源利用率高。主备容灾:支持云数据库HBase、EMR...

什么是消息演练

随着应用规模的扩大,系统变得越来越复杂,不可避免地系统会走向分布式化。...需要注意的是演练场景仅是组件表象,其内部故障原因可能是多种多样的,需要进一步进行分析。参考文档 消息演练的最佳实践,请参见消息演练最佳实践。

配置故障注入

故障注入是一种模拟应用异常行为的技术,通过给应用注入特定故障,可以检测该应用的消费者处理异常情况的能力,从而提高系统的健壮性。本文介绍如何为多语言应用配置服务故障。创建故障注入规则 登录MSE治理中心控制台。在左侧导航栏选择微...

故障隔离

某个服务故障或者异常时,如果该服务触发熔断会造成整个服务的不可用。而故障隔离能够定位到异常的服务实例,实现实例级别精细化的隔离和摘流,使故障影响的范围更小、更可控。配置故障隔离规则登录 SOFAStack 控制台。在左侧菜单栏选择 ...

演练概述

基于阿里巴巴多年业务的真实线上故障库的积累,AHAS故障演练模块为您预定义了丰富的测试任务,检验应用的高可用能力。故障演练支持对部署在阿里云ECS实例、容器服务Kubernetes集群、K8s架构类应用、Java类应用进行故障演练。一次完整的故障...

DDH故障迁移

一台DDH基于一台指定的物理服务器,可能会因为故障而自动停机。为了降低物理故障对您业务的影响,阿里云为您提供DDH故障迁移服务。您可以在创建DDH时或创建DDH后配置DDH故障迁移。创建DDH时,在其他设置区域,选中宿主机故障时自动迁移。...

支持计划FAQ

阿里云将尽一切合理努力在以下时间范围内提供服务响应:基础计划 商业计划 企业标准计划 企业至尊计划 服务响应SLA 一个工作日之内受理 业务不可用<40分钟业务受损<3小时系统异常<8小时使用咨询<16小时 核心业务不可用<12...
< 1 2 3 4 ... 200 >
跳转至: GO

新品推荐

你可能感兴趣

热门推荐

新人福利专场 阿里云试用中心 企业支持计划 飞天会员助力企业低成本上云 智能财税30天免费试用 云解析DNS新用户首购低至36元/年起 ECS限时升级特惠6.5折