文章 2025-09-27 来自:开发者社区

别再满世界找日志了:聊聊如何用AI帮运维团队快速排查故障

别再满世界找日志了:聊聊如何用AI帮运维团队快速排查故障 干运维的兄弟姐妹们应该都有过这样的经历:凌晨三点,系统突然告警,客户打爆电话,领导在群里喊“赶紧查”。结果一堆人登上服务器,翻日志、看监控、猜配置,查了半天才发现就是一个小小的配置错误。 说白了,传统运维的故障排查,...

别再满世界找日志了:聊聊如何用AI帮运维团队快速排查故障
文章 2024-04-01 来自:开发者社区

运维排查 | Systemd 之服务停止后状态为 failed

哈喽大家好,我是咸鱼。 我们知道 CentOS 7 之后,Systemd 代替了原来的 SystemV 来管理服务,相比 SystemV ,Systemd 能够很好地解决各个服务间的依赖关系,还能让所有的服务同时启动,而不是串行启动。 通常情况下,yum 安装的软件会由系统的包管理器(如 RPM)安装,并且会配置相应的 systemd 服务,因此由 systemd 来管理。然而,在一些情况下...

运维排查 | Systemd 之服务停止后状态为 failed
文章 2023-09-16 来自:开发者社区

消息队列RocketMQ版:消费异常运维排查体验

消息队列RocketMQ版:消费异常运维排查体验1. 创建实验资源开始实验之前,您需要先创建云服务器ECS实例和消息队列RocketMQ版实例。在实验室页面,单击创建资源。说明:资源创建过程需要3~5分钟,请耐心等待。(可选)在实验室页面左侧导航栏中,单击云产品资源列表, 可查看本次实验资源相关信息(例如ECS的IP地址、用户信息等)。2. 创建RocketMQ Topic、Group资源本步骤....

消息队列RocketMQ版:消费异常运维排查体验
文章 2023-08-10 来自:开发者社区

【运维知识基础篇】如何用Xshell连接VMware虚拟机及排查问题(二)

首先,我们需要在本机cmd或者Xshell本地去ping下虚拟机系统的IP地址,以10.0.0.200为例。ping 10.0.0.200如果能ping通,那一般都是可以链接,如果ping不通,我们首先在虚拟机下检查IP是否是10.0.0.200。如果ping不通,我们则需要修改系统IP地址为10.0.0.200,也就是修改我们的网卡配置文件。vim /etc/sysconfig/network....

【运维知识基础篇】如何用Xshell连接VMware虚拟机及排查问题(二)
文章 2023-08-10 来自:开发者社区

【运维知识基础篇】如何用Xshell连接VMware虚拟机及排查问题(一)

首先,我们需要知道连接Linux系统的条件,需要拥有ip地址,端口,协议,用户名和密码。我们先打开虚拟机,登录进去。打开安装好的Xshell 5(没有下载的朋友可以去文章末尾下载),咱们点新建。修改名称(自定义),主机(与Linux的IP地址保持一致),点确定,咱们的协议和端口默认即可。可以看到创建好了,我们点击连接。提示安全警告,咱们点击接受并保存,避免每次都要接受一次。根据图片提示进行如下操....

【运维知识基础篇】如何用Xshell连接VMware虚拟机及排查问题(一)
文章 2023-07-04 来自:开发者社区

运维:快速排查操作系统问题进程

我们的工作环境中,经常会出现各种各样的进程问题,而我们要做的就是快速发现问题、解决问题。我们常见的进程问题一般分为两类:对资源的使用过度和进程的状态问题资源使用过度一般为CPU、内存、IO以及文件句柄使用过度等。一般会影响业务的稳定运行,或造成其他服务进程出现问题进程状态问题一般常见的为僵尸进程和不可中断的睡眠状态,这些会导致业务服务出现问题列举一些常见的进程问题:对于这些常见问题,我们可以通过....

运维:快速排查操作系统问题进程
文章 2023-05-26 来自:开发者社区

《企业运维之弹性计算原理与实践》——ECS 进阶概念-运维——第三章(下)实验 2:ECS 问题排查及实验案例(1)

第三章(下)实验 2:ECS 问题排查及实验案例一、 问题排查考虑因素1. 网络&安全相关通常在问题排查时会首先考虑网络&安全问题:1) 网络不通• 更换网络环境排除本地网络原因• 服务端检查防火墙安全类软件是否拦截• 检查服务端监听端口是否被修改过• SSH/RDP 服务是否正常运行2) 安全拦截• 云盾防暴力破解规则:比如在共享 IP 环境下如果有人发起暴力破解行为,云盾可以....

《企业运维之弹性计算原理与实践》——ECS 进阶概念-运维——第三章(下)实验 2:ECS 问题排查及实验案例(1)
文章 2023-05-26 来自:开发者社区

《企业运维之弹性计算原理与实践》——ECS 进阶概念-运维——第三章(下)实验 2:ECS 问题排查及实验案例(2)

《企业运维之弹性计算原理与实践》——ECS 进阶概念-运维——第三章(下)实验 2:ECS 问题排查及实验案例(1) https://developer.aliyun.com/article/1231582?groupCode=supportservice二、 实验:远程连接排查实验概述:排查 ECS 无法正常 SSH 并修复问题。【思路 1】:根据日志报错信息逐一排查并修复问题。操作步骤:1)....

《企业运维之弹性计算原理与实践》——ECS 进阶概念-运维——第三章(下)实验 2:ECS 问题排查及实验案例(2)
文章 2023-05-26 来自:开发者社区

《企业运维之弹性计算原理与实践》——ECS 进阶概念-运维——第三章(下)实验 2:ECS 问题排查及实验案例(3)

《企业运维之弹性计算原理与实践》——ECS 进阶概念-运维——第三章(下)实验 2:ECS 问题排查及实验案例(2) https://developer.aliyun.com/article/1231581?groupCode=supportservice三、 CPU 问题排查1. CPU 指标 • Load average:是一段时间内系统的平均负载,这个一段时间一般取 1 分钟、5 分钟、1....

《企业运维之弹性计算原理与实践》——ECS 进阶概念-运维——第三章(下)实验 2:ECS 问题排查及实验案例(3)
文章 2023-03-11 来自:开发者社区

mPaaS云平台运维系列之—移动网关网络问题排查

一  MGS常用抓包方案介绍1.背景在基于mPaaS框架的移动App项目开发过程中,经常会遇到各种个样的错误。特别是当问题涉及到客户端与服务器或网关之间的交互行为时,抓取HTTP或者TCP报文是帮助理解和排查这类错误的重要手段。例如,当观察到存在请求报错时,可以通过分析请求报文和响应报文,查看请求的信息是否存在错误、服务器是否正常返回以及查看返回值是否符合预期等,帮助判断问题的根本原因....

mPaaS云平台运维系列之—移动网关网络问题排查

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐