阿里云容器服务GPU监控2.0进阶篇2:学会剖析(Profiling)您的GPU使用情况
本系列相关文章:阿里云容器服务GPU监控2.0基础篇1:基本功能使用阿里云容器服务GPU监控2.0基础篇2:监控NVLINK带宽阿里云容器服务GPU监控2.0基础篇3:监控NVIDIA XID错误阿里云容器服务GPU监控2.0进阶篇1:剖析(Profiling)GPU使用情况必备知识阿里云容器服务G...
企业级运维之云原生与Kubernetes实战课程 - 第二章第6讲 阿里云容器服务集群日志与监控
企业级运维之云原生与Kubernetes实战课程第二章第6讲 阿里云容器服务集群日志与监控 视频地址:https://developer.aliyun.com/learning/course/913/detail/14649 摘要:本小节主要内容为K8s日志服务与监控,包括日志服务简介、日志服务采集、集群监控。 目录 日志服务简介日志服务采集集....
阿里云容器Kubernetes监控(十) - kube-eventer发布Webhook信道支持
前言 kube-eventer是Kubernetes社区中针对事件监控、报警、chatOps场景的开源组件,更多信息可以点击查看。在早期的kube-eventer中已经支持了钉钉、微信、slack等即时通信软件机器人的接入,但是每个机器人的演进速度、功能支持有所不同,造成开发者无法在不同的即时通信机器人之间拥有一致性的体验。为了解决这个问题,在最新版本的kube-eventer推出了支持泛化能力....
阿里云容器Kubernetes监控(九) - Kubernetes事件离线工具kube-eventer正式开源
前言 监控是保障系统稳定性的重要组成部分,在Kubernetes开源生态中,资源类的监控工具与组件百花齐放。除了社区自己孵化的metrics-server,还有从CNCF毕业的Prometheus等等,开发者可选的方案有很多。但是,只有资源类的监控是远远不够的,因为资源监控存在如下两个主要的缺欠: 监控的实时性与准确性不足 大部分资源监控都是基于推或者拉的模式进行数据离线,因此通常数据是每隔一段....
阿里云容器Kubernetes监控(八) - 使用Prometheus实现应用自定义监控
前言 在上一篇文章中为大家讲解了如何在Kubernetes集群中部署Prometheus,已经可以通过Prometheus监控Kubernetes中Pod的状态、核心组件的状态等数据。那么如何将应用自身的数据进行集成呢? Prometheus数据格式解析 Prometheus是通过pull模式进行数据采集的,如果需要接入Prometheus的数据采集,需要符合Prometheus的数据格式,一个....
阿里云容器Kubernetes监控(六) - 使用eventer与npd实时告警节点异常
前言 在开始给大家讲解如何通过eventer与npd来实现节点异常告警之前,要稍微给大家解释一下为什么用三篇的篇幅来介绍eventer。在kubernetes中,会将交付场景中的大部分实体都抽象为一个逻辑的概念,例如:接入层抽象为Service,存储层抽象为PV/PVC,不同种类的应用抽象为Deployment、StatefulSet等等。这种抽象的方式不仅仅将交付变成了软件定义式的配置,更多的....
阿里云容器Kubernetes监控(五) - 离线存储与归档Kubernetes事件
前言 在上一篇文章中,向大家介绍了如何通过eventer将Kubernetes中的事件告警到钉钉群中,那么如何将这些非常有价值的事件进行离线存储与归档呢? 目前eventer支持elasticsearch、influxdb、kafka、sls四种离线存储的链路。具体的配置方式可以参考如下文档。今天主要讲解如何通过SLS归档Kubernetes的事件。 操作方式 1.登陆SLS控制台并创建proj....
基于阿里云容器服务监控 Kubernetes集群GPU指标
简介当您在阿里云容器服务中使用GPU ECS主机构建Kubernetes集群进行AI训练时,经常需要知道每个Pod使用的GPU的使用情况,比如每块显存使用情况、GPU利用率,GPU卡温度等监控信息,本文介绍如何快速在阿里云上构建基于Prometheus + Grafana的GPU监控方案。PrometheusPrometheus 是一个开源的服务监控系统和时间序列数据库。从 2012 年开始编写....
阿里云容器Kubernetes监控(四) - 使用钉钉实现Kubernetes监控告警
前言 容器应用的监控和传统应用的监控有很大的不同,在本系列的前面几篇文章中提到了关于自顶向下的传统监控策略以及在容器中常用的自底向上的反向监控策略与问题以及阿里云是如何通过数据链路与逻辑链路分离的方式解决上述问题的,文章直达连接。 但是基于数据采集的监控对于告警而言,会有很大的时延,特别是对于容器的场景,一旦容器在采集间隔中Panic后被拉起,那么很有可能会造成对异常的告警静默。那么对于这种场景....
阿里云容器Kubernetes监控(三) - 与云监控的集成与使用
简介 监控是运维Kubernetes中非常重要的一环,在kubernetes的生态内,有非常多可选的方案,常见的方案包括Kubernetes内置的Heapster、CNCF的亲儿子Prometheus、Influxdb的采集方案Telegraf等等,当然传统的监控运维工具例如zabbix也对容器的场景进行了适配。这些方案的实现方式各有不同,有的是采用agent的推模式推送数据,有的是通过集中式的....
本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。
容器更多阿里云相关
阿里云容器服务 ACK
云端最佳容器应用运行环境,安全、稳定、极致弹性
+关注