文章 2022-02-17 来自:开发者社区

阿里搜索业务AIOps智能运维实践综述

随着搜索管控的统一,对智能运维能力也提出了新的要求,如何用同一套解决方案同时解决各系统的痛点问题做到AIOps能力复用,上篇文章已经介绍过hawkeye优化大师及torch容量评估的实践,本篇文章主要介绍下我们在异常检测,根因分析,冷数据及僵尸应用治理上的实践,各项实践也都取得了预期的效果。 下面分别介绍下以上问题我们的解决方案和进展。 异常检测 背景:目前搜索系统的监控是基于规则的阈值报警,面....

文章 2022-02-17 来自:开发者社区

OceanBase在蚂蚁金服的智能运维实践之路

OB君:蚂蚁金服资深技术专家虞舜将在本文为大家分享蚂蚁金服数据库所面对的业务挑战,解读OceanBase的自治数据库体系,解密OceanBase在天猫双11大促期间的稳定性解决方案,探索OceanBase在蚂蚁金服的智能运维实践之路。本文整理自OceanBase TechTalk技术沙龙杭州站上虞舜的演讲视频以及PPT。 前言 OceanBase是一款通用的分布式关系数据库,有很多独特的特点。比....

高性能

Elasticsearch 智能运维 AI 助手

运维常面临日志量大、定位难、响应慢等问题,严重影响效率与稳定性。本方案基于阿里云 Elasticsearch,通过 Kibana 快速部署 Elastic AI Assistant,实现日志分析、异常检测与安全威胁识别的自动化,显著提升运维与安全分析的效率。
技术解决方案背景图
文章 2022-02-17 来自:开发者社区

智能运维案例系列:某人力资源服务企业 基于袋鼠云日志实现 等保合规审计

一、安全无小事,合规要先行 时至年底,很多公司都面临每年一次的网络安全等级保护“期末大考”,需要对自身信息系统进行定级、备案、检查与测评。 等级保护相关要求主要是由《中华人民共和国计算机信息系统安全保护条例》(1994年国务院147号令)及《计算机信息系统安全保护等级划分准则》(GB17859-1999)及其他一系列政策、标准组成的。从性质上说,等级保护的要求属于国家法律、法规,是强制性标准,必....

文章 2022-02-17 来自:开发者社区

阿里云Elasticsearch智能运维系统最佳实践

摘要: 随着业务的增长与发展,不同的Elasticsearch集群承担着多厚多样的功能需求。尤其是当集群规模增长、业务庞大时,需要耗费大量的精力运维集群。阿里云Elasticsearch研发了一套智能运维系统,可通多专家经验与数据驱动两个重要抓手帮助用户运维集群、提升业务的稳定性。本篇文章将结合运维常见问题展开阿里云Elasticsearch智能运维系统最佳实践的介绍。 一、诊断集群异常 最坏的....

文章 2022-02-17 来自:开发者社区

阿里巴巴研究员刘国华:阿里巴巴智能运维体系建设

扫描上述二维码或点我直达 免费领! 导语:在2018年开放数据中心峰会(Open Data Center Summit 2018)开幕式上阿里巴巴研究员刘国华发表了《阿里巴巴智能运维体系建设》的主题演讲。演讲中,刘国华介绍了智能化给阿里巴巴未来基础设施带来的三大价值:数据驱动决策、全局优化和变革。基于智能化,阿里巴巴重塑了运维体系。通过智能化建设,基础设施的交付效率提升了247%,需求预测准确率....

文章 2022-02-17 来自:开发者社区

We Make AI-Ops Happen 杭州云栖大会——智能运维专场即将开启

支持百万级规模服务器管控,保障双十一世界级工程生产运行安全的智能运维体系; 直击阿里全球运行指挥中心双11的隐形战场; 大规模文件分发系统,承载了整个阿里集团文件分发; We Make AI-Ops Happen 杭州云栖大会——智能运维专场即将开启! 2018杭州云栖大会 <智能运维专场> 9.19 13:30——18:00 将在云栖小镇等着您! 期待跟您一起“探索无限智能...

文章 2022-02-17 来自:开发者社区

智能运维(AIOps)中几处问题的解决方案与思路

上一篇文章中我们介绍了智能运维的定义和发展现状,但是智能运维需要解决的问题还有很多:海量数据存储、分析、处理,多维度,多数据源,信息过载,复杂业务模型下的故障定位。本文针对每一类问题给出了经过实践证明的解决方案和思路,同时说明为什么要这么做,以及在工程和算法上会遇到的问题。 1 海量数据的存储、分析和处理 运维人员必须随时掌握服务器的运行状况,除常规的服务器配置、资源占用情况等信息外,业务在运.....

文章 2022-02-17 来自:开发者社区

智能运维(AIOps)时代开启,一文帮你快速了解其定义与发展现状

得益于IT外包服务的发达,现在的运维已经不包括搬机器上架、接网线、安装操作系统等基础工作,运维人员一般会从一台已安装好指定版本的操作系统、分配好IP地址和账号的服务器入手,工作范围大致包括:服务器管理(操作系统层面,比如重启、下线)、软件包管理、代码上下线、日志管理和分析、监控(区分系统、业务)和告警、流量管理(分发、转移、降级、限流等),以及一些日常的优化、故障排查等。 随着业务的发展、服务器....

文章 2022-02-17 来自:开发者社区

传统负载均衡助力AIOps优化智能运维

摘要:如今AIOps已经比较火热,然而整个行业仍都处于探索的初级阶段,针对预感未来的运维需求需要通过AI进行解决,如何将传统的IT架构改造成智能运维的架构更值得人们思考。本文主要对传统业务的变化、应用交付AD+人工智能AI、AIOps 故障发现与处理等方面的内容做了深入的分析。 本场视频精彩回顾,戳这里! 本场视频PPT下载,戳这里! 演讲嘉宾简介: 邱亮,深信服科技股份有限公司...

文章 2022-02-17 来自:开发者社区

阿里巴巴发布智能运维故障管理AI+生态计划

       6月7日,2018云栖大会·上海峰会在上海世博中心举行。本次大会以“驱动数字中国”为主题,聚焦人工智能、金融、零售、IoT等行业,聚焦产业生态新发展,展现产业链上下游新应用,推动云端新融合,降低行业企业信息化成本,助力上海经济新发展。大会全面展现数字化魅力,如何利用“数字”带动企业转型、促进业态发展、创造产业新动能,激发数字经济新引擎。 &nb...

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐