运维事件中心

运维事件中心是企业业务连续性的运营管理平台,提供丰富的监控集成、强大的报警降噪、可靠的通知、灵活的事件流转、基于ITIL的故障管理等功能,一站式管理、多端协同,帮助企业实现更实时的数字化管理、更快的故障响应、更短的故障时长、更...

如何管理故障

本文档主要介绍如何管理故障故障发生条件当事件重要程度上升、整体影响面恶化、持续长时间未解决,综合评估已达到故障时(P1-P4),处理人可手动将事件升级为故障故障过程故障过程用于记录管理故障处理的全过程。当故障处于 处理中/已...

应用场景

ITIL实践经验沉淀的故障管理体系,满足企业重大故障的流程化、在线化管理需求,持续提升业务连续性。能够解决故障应急:支持故障全局应急通告,电话、短信、邮件、IM多种通知渠道,加快信息流转。故障跟踪:支持对故障进展、故障影响面、...

阿里云试用中心,为您提供0门槛上云实践机会!

100+款试用云产品,最长免费试用12个月!拨打95187-1,咨询专业上云建议!
广告

全局流量管理

全局流量管理通过DNS实现应用服务的就近访问接入、多地址负载均摊,同时根据健康检查进行DNS Failover,实现应用服务的同城多活故障隔离和异地容灾。

数据管理 DMS

数据管理DMS是一种集数据管理、结构管理、用户授权、安全审计、数据趋势、数据追踪、BI图表、性能与优化和服务器管理于一体的数据管理服务。

物联网络管理平台

物联网络管理平台,是阿里云面向物联网领域开发人员推出的网络管理平台,旨在...\n作为物联网络管理平台可与阿里云物联网平台搭配使用,确保参与物联网开发的每个环节的开发者都能轻松实现各自功能,并且拥有可自主管理的物联网无线覆盖区。

常见问题-FAQ

全局流量管理(GTM)如何判断应用服务是否故障?答:GTM 集成了应用服务监控,在全球范围内提供14个监控节点,可以采用多个监控点组合报警的形式作为服务整体异常判断条件。且客户可以选择使用ping、tcp、http三种方式对应用服务进行监控,...

应用配置管理 ACM

应用配置管理(Application Configuration Management,简称 ACM),是一款在分布式架构环境中对应用配置进行集中管理和推送的工具类产品。基于该产品,您可以在微服务、DevOps、大数据等场景下极大地减轻配置管理的工作量,增强配置管理的...

智能媒体管理

阿里云智能媒体管理(Intelligent Media Management,简称 IMM),是阿里云提供的针对媒体数据的高级、智能管理服务。...提供场景化构建的一站式数据应用解决方案,适合媒资管理、智能网盘、社交应用、图库图床等开发者使用

FAQs

全局流量管理(GTM)如何判断应用服务是否故障?答:GTM 集成了应用服务监控,在全球范围内提供14个监控节点,可以采用多个监控点组合报警的形式作为服务整体异常判断条件。且客户可以选择使用ping、tcp、http三种方式对应用服务进行监控,...

密钥管理服务

密钥管理服务KMS(Key Management Service)提供密钥的安全托管及密码运算等服务。借助KMS,您可以安全、便捷的使用密钥,专注于开发加解密等功能场景。

智联车管理云平台

智联车管理云平台(IoV Command Center)是阿里云专门为智联车厂商推出的面向智联车的一站式全生命周期云端管理平台。旨在赋能整车厂转型出行服务商,降低厂商自建成本。

智能数据构建与管理 Dataphin

Dataphin是集产品、技术、方法论于一体的智能大数据平台建设引擎,为您提供数据引入、规范定义、建模研发、资产管理、数据服务等全链路智能数据构建及管理服务。

资源管理

阿里云资源管理(Resource Management)服务是一系列企业IT治理产品和服务的集合,主要包括资源目录、资源共享、资源组和标签。

演练场景

故障演练是业务系统上线前必要的演练环节,旨在对应急预案的可行性,进一步完成应急预案,从而帮助提升产品、集群、机房的稳定性,减少故障的发生,提高故障应急效率,进而提升产品竞争力。一个完整的故障演练过程为 创建故障原子服务>创建...

如何管理事件

本文档主要介绍如何管理事件。事件来源通过流转规则触发的系统事件;通过手动新增的人工事件。事件的状态已分配:事件已分配处理人,可点击“响应”按钮进行接手;已响应:事件已被处理人接手响应,在处理完事件后,可点击“完结”按钮进行...

产品简介

什么是运维事件中心运维事件中心是企业业务连续性的运营管理平台,提供丰富的监控集成、强大的报警降噪、可靠的通知、灵活的事件流转、基于ITIL的故障管理等功能;一站式管理、多端协同,帮助企业实现更实时的数字化管理、更快的故障响应、...

什么是故障

故障追踪:支持对故障的最新进展、故障影响面(影响服务)、舆情反馈、Timeline时间线进行在线化管理、协同,基于统一视角协同处理故障,提升故障处理效率;故障复盘:基于最佳实践经验,沉淀了对故障进行深度复盘的结构化要求,形成了线上...

什么是应用高可用服务AHAS

Service)是一款专注于提高应用高可能力的SaaS产品,包含架构感知、流量防护、故障演练和功能开关四大独立的功能模块。架构感知: 自动感知应用的拓扑结构。以可视化的方式直观呈现应用对基础架构的依赖关系和组件间的依赖关系。持续记录...

开源ChaosBlade与商业化AHAS CHAOS故障演练对比

ChaosBlade是一款简单易用且功能强大的混沌实验实施工具,AHAS CHAOS故障演练是ChaosBlade的商业化产品。本文介绍AHAS CHAOS故障演练与开源ChaosBlade的能力对比。产品简介 开源ChaosBlade与商业化AHAS CHAOS故障演练的特点如下: 开源...

耗资源(客户程序故障)常见问题

本文汇总了使用云虚拟主机出现耗资源(客户程序故障)时的常见问题。什么是耗资源(客户程序故障)?网站程序占用CPU及内存过多,是对资源的一种浪费。当您使用普通版共享云虚拟主机时,可能会因为网站程序编写不合理等原因,造成服务器...

修改DDH故障迁移配置

本章节介绍在创建DDH后如何修改DDH故障迁移配置。背景信息 故障迁移服务开启后,当DDH因故障停机时,会自动迁移至健康的DDH。若您未开启DDH故障迁移服务,DDH发生故障停机后,您需要提交工单申请置换一台健康的DDH。注意 本地SSD型DDH...

演练方案

演练方案指针对不同故障场景设计、编排的一套容灾演练计划。故障演练模块支持创建、编辑、发布、复用、删除、导出演练方案,以及查看演练记录,下面逐一进行操作说明。创建演练方案在左侧导航栏上,单击 故障演练>演练方案,进入故障演练...

多应用服务场景如何实现批量切换流量

容灾预案是全局流量管理(简称GTM)提供的功能,它可以帮助用户日常做容灾演练,或在应用服务出现故障时实现快速切换流量。应用场景容灾演练时,模拟服务器故障,验证故障切换策略是否符合配置预期。创建多个应用服务同时切换流量的容灾...

多应用服务场景如何实现批量切换流量

容灾预案是全局流量管理(简称GTM)提供的功能,它可以帮助用户日常做容灾演练,或在应用服务出现故障时实现快速切换流量。应用场景 容灾演练时,模拟服务器故障,验证故障切换策略是否符合配置预期。创建多个应用服务同时切换流量的容灾...

同城多活架构实践

在杭州单元格B的商品应用发生故障的情况下,可使用MSHA切流功能将流量全部切换到另外的单元格,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换...

同城多活架构实践

在杭州单元格B的商品应用发生故障的情况下,可使用MSHA切流功能将流量全部切换到另外的单元格,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换...

应用故障自动诊断

如果发现问题,则会在应用总览页面上方闪现一个红色盾牌图标,单击该图标即可弹出故障诊断报告,故障报告上的故障定界和根因分析可以帮助您更好地发现和解决问题。常见的故障自动诊断场景RT突增 下游业务导致的本应用的RT突增,您可以联系...

故障注入

流量精确匹配(可选)设置流量的匹配条件,满足匹配条件的流量才会使用故障注入规则。置空此项时表示匹配所有流量。您可以配置多条匹配条件,多个条件是与的关系,按顺序进行匹配。参数配置如下:字段:可选择系统字段和请求头。字段名:...

演练原子操作

故障演练原子操作指最小单元的故障。在 故障演练>演练原子操作 页面中,展示了平台上可用于故障演练的原子服务。可根据原子服务状态分类,查看当前环境中的故障原子操作信息,包括原子操作名称、操作编码、添加时间、状态、被引用次数等...

特权访问服务

云资源因直接对互联网暴露,以及存在大量弱口令问题(约40万ECS),面临被暴力破解的风险。...阿里云特权访问管理中心通过免密登录、RAM权限托管、RDP/SSH代理、安全审计和风控能力,提供有效的运维会话审计功能,实现事前和事中智能风控。

应用高可用服务 AHAS

应用高可用服务AHAS是一款专注于提高应用高可能力的SaaS产品,提供应用架构自动探测、故障注入式高可能力演练、一键应用防护和增加功能开关等功能,可以快速低成本地提升应用可用性。

安装故障演练探针

对指定机器进行演练时,需要在机器上面安装故障演练...在左侧导航栏选择探针管理,在探针管理页面,选择探针安装>安装故障演练探针。在安装探针页面选择安装探针的环境,具体步骤,请参见安装探针概述。后续步骤 创建演练 执行演练 停止演练

API概览

故障新增备注小计 FinishProblem 故障完结 ListProblemSubtotals 故障小计列表 RecoverProblem 故障恢复 ReplayProblem 故障复盘 RevokeProblemRecovery 故障撤销恢复 UpdateProblemNotice 更新故障通告 CreateProblemMeasure 创建故障改进...

无法连接Windows实例

检查CPU负载是否过高 尝试重启实例&步骤一:使用管理终端登录实例 无论何种原因导致无法远程连接实例,请先尝试阿里云提供的远程连接功能进行连接,确认实例还有响应,没有完全宕机,然后再按原因分类进行故障排查。登录云服务器管理控制...

应用场景

故障演练为不断提升产品高可能力,通过高可用管理平台的故障演练模块,设计并规划演练计划和恢复方案,继而在演练过程中不断发现、解决容灾预案存在的问题。以此,降低产品使用过程中故障发生概率,提高故障恢复效率,进而实现产品高可用...

管理集群

如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后自动替换故障主机。手动替换主机:用户需要手动替换故障主机。资源分配策略 专属集群资源调度的默认分配策略:均衡分配:最大化追求更稳定的系统表现,优先从未分配...

故障注入

流量精确匹配(可选)设置流量的匹配条件,满足匹配条件的流量才会使用故障注入规则。置空此项时表示匹配所有流量。您可以配置多条匹配条件,多个条件是与的关系,按顺序进行匹配。参数配置如下: 字段:可选择系统字段和请求头。字段名:...

诊断规则

通过故障诊断平台,运维人员可以将诊断过程、排查顺序进行图形化编排与设计,即故障诊断决策树。而后,在实际故障发生时,即可执行自动化、标准化的故障排查,并直接输出诊断报告,反馈诊断结果。故障诊断功能有效提升了故障排查效率,实现...
< 1 2 3 4 ... 200 >
共有200页 跳转至: GO
产品推荐
块存储 数据管理 密钥管理服务 云服务器 物联网无线连接服务 商标 SSL证书 负载均衡SLB
这些文档可能帮助您
什么是资源管理 获取AccessKey 我是普通用户 Java SDK示例 什么是密钥管理服务 开通密钥管理服务

新品推荐

新人福利专场 阿里云试用中心 企业支持计划 飞天会员助力企业低成本上云 智能财税30天免费试用 云解析DNS新用户首购低至36元/年起 ECS限时升级特惠6.5折

你可能感兴趣

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化

热门推荐

切换为移动版

新人福利专场 阿里云试用中心 企业支持计划 飞天会员助力企业低成本上云 智能财税30天免费试用 云解析DNS新用户首购低至36元/年起 ECS限时升级特惠6.5折