[帮助文档] 在ACK集群部署多租户任务调度管理
在ACK集群中,企业可以通过AI套件中的任务管理工具Arena、队列调度管理系统Kube Queue、配额管理工具ElasticQuotaTree以及Prometheus监控打造企业级任务调度系统。本文将从实际案例出发自底而上地介绍如何基于ACK集群构建一个任务调度系统。
[帮助文档] 利用DCGM实现GPU的性能分析
NVIDIA GPU上存在一些硬件计数器,这些计数器可以用来收集一些设备级别的性能指标,例如GPU利用率、内存使用情况等。借助NVIDIA提供的NVML(NVIDIA Management Library)库或DCGM(Data Center GPU Manager)工具能够查询这些硬件层提供的指标...
[帮助文档] 使用抢占式实例弹性训练以降低AI模型的训练成本
为降低使用AI模型训练成本,云原生AI套件推出基于抢占式实例的弹性训练解决方案,该方案可以将AI模型训练这种有状态类型的工作负载运行在抢占式实例上,几乎可以做到在不影响训练作业成功率的情况下降低训练成本。
[帮助文档] 弹性训练
弹性训练
[帮助文档] 如何升级ack-fluid组件
ack-fluid是云原生AI套件的数据缓存加速组件。当集群的ack-fluid组件版本为v1.0.6及以下,且攻击者拥有创建和修改Dataset和JuiceFSRuntime权限时,CRD资源可能被恶意修改,导致脚本注入,继而引起节点提权的安全风险。为提高安全性,建议您将ack-fluid组件升级...
阿里云云原生容器高级工程师认证(ACP级-Alibaba Cloud Certification Professional)考试大纲
阿里云云原生容器高级工程师认证(ACP级)考试大纲 大纲版本号 发布/更新日期 重要变化内...
云原生技术专题 | 云原生架构未来发展趋势,探索容器技术未来的发展趋势
云原生架构未来发展趋势 云原生架构指的是基于云原生技术的一套架构原则和设计模式,目的是最大限度地去除云应用中的非业务代码部分。这样,云设施可以接管应用中大量原有的非功能性特性(如弹性、韧性、安全性、可观察性、灰度等),使非功能性业务中断不再成为难题,为业务提供轻量化、敏捷、高度自动化的优势。 对于之...
云原生技术专题 | 云原生容器编排问题盘点,总结分享年度使用Kubernetes的坑和陷阱
Kubernetes与云原生 随着云原生的兴起,越来越多的应用选择基于Kubernetes进行部署,可以说Kubernetes 是最流行的容器编排和部署平台。它的强大功能特性,可以保障在生产中可靠地运行容器化应用程序,相关的DevOps等工具也应运而生,下面就是小编简单化了一个Kubernetes的...
【云原生|Docker系列第4篇】Docker的容器的入门实践
欢迎来到云原生系列的第4篇博客!在前面的两篇博客中,我们已经学习了Docker镜像的基本概念和入门实践。本篇博客将带您深入了解Docker容器,探索如何使用Docker容器来构建、运行和管理应用程序。无论您是新手还是有一定经验的开发者,通过本篇博客的实践指导,您将能够更加熟悉和掌握Docker容器的...
[云原生] Docker 入门指南:镜像、容器、卷和网络解析
Docker 是一种流行的容器化平台,它以其强大的功能和易用性在软件开发和部署领域广受欢迎。本文将带领您逐步探索 Docker 中的四个核心概念:镜像、容器、卷和网络。通过了解这些概念的是什么、为什么以及如何使用,您将能够更好地理解和利用 Docker,提高开发和部署效率。镜像(Image)是什么D...
本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。