运维事件中心

运维事件中心是企业业务连续性的运营管理平台,提供丰富的监控集成、强大的报警降噪、可靠的通知、灵活的事件流转、基于ITIL的故障管理等功能,一站式管理、多端协同,帮助企业实现更实时的数字化管理、更快的故障响应、更短的故障时长、更...

全局流量管理

全局流量管理通过DNS实现应用服务的就近访问接入、多地址负载均摊,同时根据健康检查进行DNS Failover,实现应用服务的同城多活故障隔离和异地容灾。

负载均衡

负载均衡SLB(Server Load Balancer)是一种对流量进行按需分发的服务,通过将流量分发到不同的后端服务来扩展应用系统的服务吞吐能力,并且可以消除系统中的单点故障,提升应用系统的可用性。

应用高可用服务 AHAS

应用高可用服务AHAS是一款专注于提高应用高可用能力的SaaS产品,提供应用架构自动探测、故障注入式高可用能力演练、一键应用防护和增加功能开关等功能,可以快速低成本地提升应用可用性。

数据库自治服务 DAS

数据库自治服务DAS(Database Autonomy Service)是一种基于机器学习和专家经验实现数据库自感知、自修复、自优化、自运维及自安全的云服务,帮助您消除人工操作引发的服务故障,有效保障数据库服务的稳定、安全及高效。

Node.js 性能平台

Node.js 性能平台(Node.js Performance ...应用提供性能监控、安全提醒、故障排查、性能优化等服务的整体性解决方案。\nNode.js 性能平台凭借对 Node.js 内核深入的理解,提供完善的工具链和服务,协助客户主动、快速发现和定位线上问题。

云数据库 OceanBase

自主研发的金融级分布式关系数据库,在普通硬件上实现金融级高可用,在金融行业首创“三地五中心”城市级故障自动无损容灾新标准,同时具备在线水平扩展能力,创造了 6100万次/秒处理峰值的业内纪录,在功能、稳定性、可扩展性、性能方面都...

性能分析

性能分析服务为移动 App 提供实时线上性能数据的“采集-分析-监控-告警...Android/iOS 应用类型,帮助客户建立 5 分钟线上故障感知能力,并与崩溃分析/远程日志服务配合使用,构建异常“感知-定位-恢复”的运维能力闭环,提升 App 使用体验。

崩溃分析

IO、内存图片、内存泄漏、资源泄漏、主线程卡顿、文件句柄使用过量、主线程 IO 等异常。崩溃分析服务支持 Android/iOS/H5 应用类型,帮助客户建立 5 分钟线上故障感知能力,并与性能分析/远程日志服务配合使用,构建异常“感知-定位-恢复...

舆情分析

客户负面制造舆情:客户表示在媒体等公众平台上进行曝光等意向升级问题:客户表示有找领导(上层)和相关监管部门解决问题等意向投诉:客户表现出投诉意向质疑服务:客户表现出质疑客服的服务态度、服务不专业等意向辱骂:客户表现出辱骂...

逻辑回归多分类

该参数是L-BFGS算法的终止条件,即两次迭代的log-likelihood之小于该值,迭代终止。1.0e-06 enableSparse 否 输入数据是否为稀疏格式,取值范围为{true,false}。false itemDelimiter 否 输入表数据为稀疏格式时,KV对之间的分隔符。英文...

逻辑回归二分类

该参数是L-BFGS算法的终止条件,即两次迭代的log-likelihood之小于该值,迭代终止。1.0e-06 goodValue 否 目标基准值。二分类时,指定训练系数针对的 label值。如果为空,则系统随机分配。无 enableSparse 否 输入数据是否为稀疏格式,...

常见问题

运维管理 容器应用服务常见问题经典应用服务常见问题 中间件 SOFABoot 常见问题微服务常见问题微服务故障排查之 DRM微服务故障排查之限流微服务故障排查之 RPC服务网格-故障排查消息队列常见问题任务调度常见问题分布式链路跟踪常见问题...

故障演练常见问题

欢迎您反馈在使用故障演练过程中遇到的问题,目前提供以下常见问题供您参考。单个演练活动成功状态怎么判断?因为一个活动可能会有很多目标机器,当所有机器执行完毕之后,如果有机器没有执行成功,那么这个演练活动就会被系统判断为失败。...

耗资源(客户程序故障常见问题

常见的出现耗资源(客户程序故障)的原因如下所示:网站程序编写不合理,例如ASP程序变量没有清空。网站采用ACCESS数据库,当数据库的容量比较时(比如超过100 M以上),性能可能会出现问题。网站访问量过导致内存耗尽。耗资源(客户...

故障排查

本文介绍阿里云容器服务ACK集群在使用过程中常见问题的故障分析和排查流程。ACK集群异常 Kubernetes集群创建失败的解决方法 添加Kubernetes集群节点的常见问题 容器镜像仓库构建服务失败问题排查 容器镜像服务源码绑定失败问题排查 ...

如何排查Java场景下故障注入不生效的问题

在对Java进程注入故障时,可能会出现故障注入失败的情况。为解决此类问题,在创建或编辑演练时,您可以在故障执行阶段选择开启Debug模式,并通过相关的日志信息来了解故障注入失败的原因。开启Debug模式 在查看目标演练的故障注入日志前,...

应急预案:专有云控制台服务异常的应急处理方法

在专有云环境中,dtcenter服务出现异常,导致专有云控制台出现异常,针对一些常见故障场景给出以下应急处理方法。3.解决方案 3.1.环境检查 详情请参见以下KB文档。KB 116252 通用方案:专有云控制台服务异常的应急处理方法

应用场景

故障跟踪:支持对故障进展、故障影响面、舆情反馈、Timeline进行在线化管理、协同,提升故障处理效率。故障复盘:基于最佳实践经验,沉淀了对故障进行深度复盘的结构化要求,形成了线上检查点,以产品的方式承载流程落地。故障改进:支持对...

应用故障自动诊断

常见故障自动诊断场景RT突增 下游业务导致的本应用的RT突增,您可以联系下游业务的负责人进行排查。应用变更导致的RT突增,您可以查看此次变更的具体变更进行排查。应用的某个服务导致RT突增,可以排查以下情况:服务是否在此时有发生...

如何管理故障

更新故障通知:在故障处理的过程中,当故障进展发生变化,包括进度更新、影响恶化、故障等级变化、原因明确、根因定位等场景下,可更新故障过程中的内容,并在故障详情页点击更新故障通知,选择需要的故障通告类型,并最终确认发出故障通告...

实例的节点故障处理机制

本文档介绍云数据库MongoDB版实例的节点故障处理机制。单节点实例 由于单节点实例架构的特殊性,单节点实例仅拥有一个节点。当节点发生故障后,系统会对故障节点进行检查与修复。节点故障期间实例的相关服务不可用。说明 单节点实例适用于...

执行演练

在执行故障演练过程中,您可以实时查看演练进度、每个演练活动的运行状态及结果,同时也能够随时结束演练,进行恢复阶段的活动,清除故障演练影响。背景信息 一次完整的故障演练包括以下四个阶段:安装探针>创建演练>执行演练>停止演练 ...

功能优势

丰富的故障场景 丰富的故障场景也是 AHAS Chaos 的一特色,包括了以下场景:常见的基础设施资源例如CPU、内存、磁盘等。应用级别的故障注入,目前只支持 Java 应用,后续将陆续推出对于 NodeJs 和 C++ 的应用故障注入。云原生领域的演练...

常见重大封网时段公告

封网期间禁止出入机房,只处理重启服务器和网络紧急故障,不再进行诸如路由策略,带宽流量调配,业务割接等涉及电路,数据调整等操作。封网期间机房不办理外部人员进出手续。说明 封网属于不可抗力或不可控因素,该时段不在施工工期承诺...

API概览

故障新增备注小计 FinishProblem 故障完结 ListProblemSubtotals 故障小计列表 RecoverProblem 故障恢复 ReplayProblem 故障复盘 RevokeProblemRecovery 故障撤销恢复 UpdateProblemNotice 更新故障通告 CreateProblemMeasure 创建故障改进...

什么是故障

本文主要介绍什么是故障。定义在日常运营中,无论什么原因导致业务服务中断、服务品质下降或用户服务体验下降的现象,称为故障,但不包括用户侧环境或用户自身操作引起的问题。“用户体验下降”说明故障的核心要关注用户感受,可通过客服...

常见重大封网时段公告

封网期间禁止出入机房,只处理重启服务器和网络紧急故障,不再进行诸如路由策略,带宽流量调配,业务割接等涉及电路,数据调整等操作。封网期间机房不办理外部人员进出手续。说明 封网属于不可抗力或不可控因素,该时段不在施工工期承诺...

诊断决策树

对于未知的故障,您可以依据运维经验,编排出常见的排查路径,辅助快速故障定位。新建诊断决策树从左侧导航栏进入 故障诊断>诊断决策树 页面,单击 新建诊断决策树。在右侧新窗口中,配置诊断决策树信息,包括决策树名称、描述,超时时间...

故障注入

您可以通过故障注入功能向测试应用注入故障,检测应用面对异常时的处理情况。您可以根据检测的情况调整您的应用,以减少应用在正式使用时出现的异常问题。多用于测试环境。功能简介故障注入流程如下所示:在微服务中,其实现方式为:管控台...

常见问题

您可以通过OSS文档获取咨询类和错误排除类等常见问题答案。本文提供OSS各类常见问题的入口链接汇总。...ossftp常见问题 SDK常见问题 Java SDK常见问题 Python SDK常见问题 Node.js SDK常见问题 C SDK常见问题 Browser.js SDK常见问题

故障注入

您可以通过故障注入功能向测试应用注入故障,检测应用面对异常时的处理情况。您可以根据检测的情况调整您的应用,以减少应用在正式使用时出现的异常问题。多用于测试环境。配置故障注入规则登录 SOFAStack 控制台。在左侧菜单栏选择 中间件...

DDH故障迁移

一台DDH基于一台指定的物理服务器,可能会因为故障而自动停机。为了降低物理故障对您业务的影响,阿里云为您提供DDH故障迁移服务。您可以在创建DDH时或创建DDH后配置DDH故障迁移。创建DDH时,在其他设置区域,选中宿主机故障时自动迁移。...

基本概念

电路组(链路组)一些电路(链路)集合组成的组合 变更工单 变更方案结合业务数据生成的可执行工单 变更方案 变更中心使用的方案,由用户根据业务场景和运维经验,编排模板步骤的执行顺序和前后关联,形成标准化可重复使用的流程方案 性能...

演练概述

基于阿里巴巴多年业务的真实线上故障库的积累,AHAS故障演练模块为您预定义了丰富的测试任务,检验应用的高可用能力。故障演练支持对部署在阿里云ECS实例、容器服务Kubernetes集群、K8s架构类应用、Java类应用进行故障演练。一次完整的故障...

修改DDH故障迁移配置

为了降低物理故障对您业务的影响,阿里云为您提供DDH故障迁移服务。本章节介绍在创建DDH后如何修改DDH故障迁移配置。背景信息 故障迁移服务开启后,当DDH因故障停机时,会自动迁移至健康的DDH。若您未开启DDH故障迁移服务,DDH发生故障停机...

故障隔离

某个服务故障或者异常时,如果该服务触发熔断会造成整个服务的不可用。而故障隔离能够定位到异常的服务实例,实现实例级别精细化的隔离和摘流,使故障影响的范围更小、更可控。配置故障隔离规则登录 SOFAStack 控制台。在左侧菜单栏选择 ...

什么是消息演练

目前市面上有RocketMQ、Kafka、RabbitMQ等流行的消息中间件服务,消息演练功能将这些常见的中间件进行了统一抽离,为消息服务安排分配了精选后的演练最佳实践,您不需要自己去研究分析每种消息服务需要什么演练场景,仅需选择演练方案即可...

如何管理事件

故障状态:处理中(升级时故障还在处理中),输入发现故障的时间、已恢复(升级时故障已恢复),输入故障生成的时间和故障恢复的时间;所属服务:升级故障所属的服务;影响服务:选择影响服务(可多选);进展摘要:处理人将事件升级为故障...

FAQs

故障发现时间:GTM可保障故障发现时间,目前默认的健康检查配置可以在故障的4分钟左右准确发现故障并切换;DNS切换同步时间:GTM无法保障全网的最终生效时间,因受限于全国各地运营商的TTL缓存设置以及网络环境不同,所以全网生效时间取决...
< 1 2 3 4 ... 61 >
跳转至: GO

新品推荐

你可能感兴趣

热门推荐

新人福利专场 阿里云试用中心 企业支持计划 飞天会员助力企业低成本上云 智能财税30天免费试用 云解析DNS新用户首购低至36元/年起 ECS限时升级特惠6.5折