监控、诊断和故障排除

故障排除:提供常见的问题场景和故障排除方法。服务监控 监视总体运行状况 可用性和有效请求率 可用性和有效请求率是有关系统稳定性和用户是否正确使用系统的最重要指标,指标小于100%说明某些请求失败。可能因为一些系统优化因素出现暂时...

支持计划

配置指导以及故障排除 配置指导以及故障排除 配置指导以及故障排除 专属技术服务经理 不支持 不支持 专属技术服务经理(TAM)健康检查 可免费使用智能顾问Advisor 可免费使用智能顾问Advisor 可免费使用智能顾问Advisor。专属技术服务经理...

构建基于Serverless架构的弹性高可用音视频处理系统

在音视频系统中,音视频转码是比较消耗计算力的一个子系统,您可以通过 函数计算 和 Serverless 工作流 构建弹性高可用的Serverless音视频处理系统。本文会从工程效率、运维、性能和成本方面介绍Serverless音视频处理系统和传统方案的差异...

错误码

常见 PolarDB-X 数据节点连接失败的原因如下:后端数据节点连接数已满 计算节点到数据节点的连接超时 数据节点拒绝连接 如果排除后端数据节点问题后仍然出现该错误,请联系技术支持。PXC-4103 ERR_ATOM_CONNECTION_POOL_FULL 描述:PolarDB...

设计方案

容错 容错是指在分布式系统中,系统出现故障时,通过设计和实现可靠的机制和策略,使系统能够自动检测、排除或者纠正错误,保证系统能够正常运行,从而提高系统的可靠性和稳定性。容量 容量是在一定时间内,系统能够处理的最大工作量或数据...

性能监控最佳实践

这些工具可以根据监控数据自动化地进行故障排除、性能优化等操作,提高系统的稳定性和性能。建设一体化性能监控平台需要根据监控需求选择合适的监控工具,进行配置和整合,实现数据可视化和自动化运维,以提高系统的稳定性和性能。从 0 到 ...

通过ARMS告警大盘提高告警处理效率

背景信息 企业在处理系统告警时,经常会遇到以下痛点:如何查看过去一段时间系统发生了哪些告警,哪类告警占比较高。告警配置没有收敛,多人在多个系统配置了多个告警。如何只查看我关心的告警以及对应的处理情况。制定了值班机制,无法...

Pod诊断

容器智能运维平台 构建了基于专家经验的故障诊断系统,并基于海量数据训练了AI智能故障诊断模型。Pod诊断融合了基于专家经验和AI智能诊断两种诊断模式,进一步深入定位问题根因。Pod诊断包括诊断检查项和诊断根因。诊断检查项:包括Pod检查...

Windows实例通过外部访问网络不通的处理

更多信息,请参见 在ECS实例的Windows服务器PING外网提示一般故障处理方法。检查Windows实例是否有性能问题,如CPU资源占用高、内存耗尽、带宽占用满、网络动态端口耗尽。更多信息,请参见 Windows系统内存分析工具的介绍。检查Windows实例...

实时分析链路数据

如果异常请求分散在多台机器,那么大概率可以排除单机故障因素,可以重点分析下游依赖服务或程序逻辑是否异常。在 调用链分析 页面筛选错误调用或慢调用,并设置按IP进行分组统计,如果异常调用集中出现在特定机器,则有较大概率是机器故障...

远程连接FAQ

排除本地网络故障后再进行后续的排查。如果是本地运营商网络问题,建议您联系运营商解决。检查服务器的负载是否过高 轻量应用服务器的带宽和CPU使用率过高,可能会导致服务器无法远程登录。如果是带宽或CPU占用过高导致的无法登录,请参考...

Pod诊断

容器智能运维平台 构建了基于专家经验的故障诊断系统,并基于海量数据训练了AI智能故障诊断模型。Pod诊断融合了基于专家经验和AI智能诊断两种诊断模式,进一步深入定位问题根因。Pod诊断包括诊断检查项和诊断根因。诊断检查项:包括Pod检查...

Pod诊断

容器服务平台构建了基于专家经验的故障诊断系统,并基于海量数据训练了AI智能故障诊断模型。Pod诊断融合了基于专家经验和AI智能诊断两种诊断模式,进一步深入定位问题根因。Pod诊断包括诊断检查项和诊断根因。诊断检查项:包括Pod检查、...

事件分析概述

链路追踪:提供事件轨迹能力,还原事件整体链路状态,帮助您快速排除故障,定位链路问题。低成本 事件总线EventBridge 支持事件以云服务事件总线和自定义事件总线形式接入,云服务事件总线支持接入所有阿里云产品事件,无缝支持云服务事件...

在Windows实例无法访问外部网络如何处理

您可以通过单击目标实例ID进入实例详情页面,查看ECS实例的漏洞信息、应用漏洞信息、防御信息、安全设置、安全告警处理等内容,然后针对相关告警或通知处理问题使Windows实例状态恢复正常。检查Windows实例是否与该网站所在的特定网段网络...

无法远程连接Windows实例的排查方法

排除本地网络故障后进行下一步检查。在本地客户端使用 ping 命令测试与实例的网络连通性。网络异常时,请参见 网络异常时如何抓取数据包 进行排查。当出现ping丢包或ping不通时,请参见 使用ping命令丢包或不通时的链路测试方法 进行排查。...

网站管理常见问题

系统会根据攻击类型自动对应不同的解封时间并自动解封网站,同时安全系统仍然会继续检测,如果攻击仍然存在或者解封之后又遭到DDoS攻击,系统会再次按照同样的规则进行处理。DDoS攻击基本是针对共享IP的4层攻击,目前无法精确定位到哪一个...

挂载访问FAQ

目前仅支持Linux操作系统挂载NFS文件系统,Windows操作系统挂载SMB文件系统、Windows操作系统挂载NFS文件系统及Linux操作系统挂载SMB文件系统场景,请您登录ECS实例执行命令挂载。更多信息,请参见 Windows系统挂载SMB文件系统、Windows...

可观测性的设计原则

通过在系统中实现分布式跟踪,可以快速定位问题并进行有效的故障排除。链路跟踪可以通过在系统中添加跟踪标识符来实现。当请求进入系统时,标识符将被添加到请求中,并在整个系统中传递。每个组件都可以将标识符添加到它们的日志中,以便在...

跨地域容灾

容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,分钟级的高可靠的业务持续性保障,有效避免了地域性灾害导致的系统故障

查看实例的系统日志和屏幕截图

系统通过串口打印输出的日志会包含两种类型的信息,一类是系统启动开机时的日志内容,另一类是系统内核故障或异常时的日志内容。更多详情,请参见《云栖社区》博客 操作系统有异常?诊断日志来帮忙。使用限制 使用该功能时您需要注意如下...

功能概览

生产站点和容灾站点部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性灾害导致的系统故障。更多信息,请参见 跨地域容灾。跨可用区容灾 当生产站点因为不可抗力因素(比如机房...

监控服务概览

OpenAPI访问监控数据 OSS服务的相关监控指标数据可以通过云监控提供的OpenAPI访问,使用方法请参见:云监控SDK参考 访问监控数据 监控、诊断和故障排除 监控诊断和故障排除 通过详细介绍以下各个方面的内容帮助您更好地了解OSS服务的运行...

诊断网页加载过慢的问题

慢加载详情 页面顶部的 页面信息 区域展示了本次访问的客户端IP地址、浏览器、操作系统信息,帮助您确认故障原因。慢加载详情 页面的 页面资源加载瀑布图 区域展示了页面静态资源加载的瀑布图,帮助您快速定位资源加载的性能瓶颈。慢加载...

进入Linux系统的单用户模式

您可以在单用户模式下,查看系统日志文件、检查服务状态、测试网络连接等,以进行故障排除和问题修复。以排查Linux系统启动问题为例,您可以进行如下操作:如果系统配置文件出现问题,导致系统无法正常启动,您可以在单用户模式下修改相应...

捷顺

DAS服务自动SQL限流和自动SQL调优,帮助DBA从救火员转向数据库架构师,有更多时间和精力帮助研发优化系统架构,审核数据库的变更和各种操作,进一步降低系统故障的概率。DAS服务自动对数据库实例进行治理,帮助捷顺科技把数据库的运维成本...

单实例快速恢复

为了能够快速恢复系统故障,Hologres提供了单实例快速恢复的机制。本文为您介绍单实例快速恢复的触发条件和行为。实例快速恢复逻辑说明 Hologres在 V2.0版本之前,Hologres计算节点均为容器调度(即下图中的Worker Node),资源管理器...

应用场景

前端的监控系统和大数据处理系统会利用 TSDB 的数据查询和计算分析能力进行业务监控和分析结果的实时展现。电力化工及工业制造监控分析 传统电力化工以及工业制造行业需要通过实时的监控系统进行设备状态检测,故障发现以及业务趋势分析。...

Gmail 投递帮助

Gmail发送者指南,请参考 文档。一、投递失败的原因 一般来说,投递失败会出于以下一种或多种原因:发送邮件...6、使用故障排除工具 如果按照本文中的指南进行操作后仍然遇到邮件传送问题,请尝试 对发件人的电子邮件传送问题进行故障排除

查看和运行SMC客户端

具体操作,请参见 故障排除。说明 如果您需要停止客户端迁移或修改客户端配置,可参考以下操作步骤退出SMC客户端。Linux Linux版本客户端默认在后台运行,可执行以下命令退出后台进程:./go2aliyun_client-abort Windows Windows版本客户端...

什么是事件

流转灵活:触发的事件支持处理人灵活的响应、转交、升级故障并完结处理故障;事件分级:事件支持根据其影响面和重要程度可以设置为P1~P4层级的优先级和高低的事件影响程度,最终实现事件分级处理,关键事件优先响应、完结;全生命周期动态...

发现和排查实例问题

系统事件中会同时提供应对措施、事件周期等信息,建议您及时处理系统事件,避免实例重启、停止等问题影响您的业务。更多信息,请参见 ECS系统事件概述。通知包年包月实例到期的系统事件示例如下图所示。请确保在 消息中心 开启接收ECS到期...

服务管控和治理

故障注入 您可以通过故障注入功能向测试应用注入故障,检测应用面对异常时的处理情况。您可以根据检测的情况调整您的应用,以减少应用在正式使用时出现的异常问题。更多信息,请参见 故障注入。服务鉴权 服务提供者提供服务后,您可以通过...

应用场景

秒杀处理系统按照秒杀处理逻辑将满足秒杀条件的请求发送至 云消息队列 RocketMQ 版。下游的通知系统订阅 云消息队列 RocketMQ 版 的秒杀相关消息,再将秒杀成功的消息发送到相应用户。用户收到秒杀成功的通知。大规模机器的缓存同步 双十一...

通过SMC客户端导入迁移源

常见问题及修复方案的更多信息,请参见 SMC FAQ 和 故障排除。使用sudo权限:sudo./go2aliyun_client-abort sudo./go2aliyun_client 使用root权限:./go2aliyun_client-abort./go2aliyun_client 后续步骤 导入迁移源后,您需要创建并启动...

替换主机

当主机发生故障后,如果您创建 专属集群MyBase 时 主机故障处理策略 选择的是 手动替换主机,则您可以通过手动替换主机来解除故障。前提条件 专属集群MyBase 引擎的为MySQL,且主机存储类型为本地SSD盘。背景信息 当主机发生故障时,系统会...

实例健康诊断

实例健康诊断功能可以对 轻量应用服务器 实例的计算服务状态、网络服务、存储服务和配置管理等进行全方位的诊断,帮助您了解实例的健康状态,及时发现并解决常见的问题。前提条件 轻量应用服务器...轻量应用服务器故障问题,请参见 故障排除

应用场景

报警事件分级管理:系统触发的报警、事件、故障无分级,不能第一时间区分任务的紧急和影响程度导致重要紧急的任务未及时处理,加大业务损失。打破数据烟囱:同一个业务运营下所有层级的报警数据统一汇聚,不同监控源数据互联互通,真实反应...

DescribeExcludeSystemPath-查询防勒索系统排除目录

查询防勒索系统排除目录。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 下表是API对应的授权信息,可以在RAM权限策略语句的 Action 元素中...

替换主机

当主机发生故障后,如果您创建 专属集群MyBase 时 主机故障处理策略 选择的是 手动替换主机,则您可以通过手动替换主机来解除故障。前提条件 专属集群MyBase 引擎的为MySQL,且主机存储类型为本地SSD盘。背景信息 当主机发生故障时,系统会...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
商标服务 云安全中心 对象存储 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用