阿里云文档 2025-04-02

基于ACK集群的Dify组件升级指南

本文主要指导用户将ack-dify从旧版本升级至v1.0.0及以上,首先备份数据,然后通过命令提取并安装插件迁移工具至插件系统,最后验证插件功能是否正常运行,以启用新的插件生态系统。

阿里云文档 2025-04-01

在ACK中使用KTransformers部署DeepSeek-R1模型

KTransformers框架实现了多种LLM推理优化,进一步减少了推理阶段的显存占用,从而提高推理性能和降低GPU资源成本。本文介绍如何在阿里云容器服务 Kubernetes 版中通过KTransformers实现高效部署671B参数的DeepSeek-R1-Q4_K_M量化模型推理服务。

阿里云文档 2025-03-25

设置Slurm队列优先级

为了更有效地管理和分配资源,优化作业调度,提升系统利用率,并满足多样化的作业需求,队列成为任务调度中不可或缺的配置项。合理的队列设置能够确保高优先级的任务优先获得所需资源,从而最大化资源利用效率。本文介绍在Slurm系统环境下,当出现作业提交或作业状态变化时,如何通过恰当的队列配置策略来实现尽可能多的任务调度处理,以达到最佳性能。

阿里云文档 2025-03-12

Slurm用户及账户配置推荐设置

Slurm提供的账户与用户可被用于管理任务提交以及计费统计。本文主要介绍如何在Slurm集群中正确配置账户和用户,包括创建、修改和删除账户及用户的方法,并深入探讨如何以账户为单位来有效地跟踪和统计任务所消耗的资源量,从而帮助企业或研究机构更好地管理和优化其计算资源的使用效率。

阿里云文档 2025-03-07

通过开发控制台对MLflow仓库模型管理

云原生AI套件支持对MLflow模型仓库中的模型进行管理,本文介绍如何使用云原生AI套件开发控制台进行模型管理。

文章 2023-12-20 来自:开发者社区

云原生|kubernetes|networkPolicy网络策略详解

前言:networkPolicy是kubernetes集群的一个重要安全特性。顾名思义,网络策略,控制网络流量的一个资源。那么,kubernetes集群的网络是由docker虚拟网卡,cni网络插件,flannel网络插件(也可能会使用calico,weaver等等其它网络插件)这些模块组成的。主要还是基于Linux内核层面的iptables或者ipvs通过上述的网络插件使得整个集群的网络成为网....

文章 2023-12-19 来自:开发者社区

云原生|kubernetes |一文带你搞懂pod调度策略,驱逐策略,污点、容忍调度

前言:kubernetes集群不是简单的安装部署就完事了,还需要根据业务的性质设定一些策略,比如,某些pod不希望被调度到硬件条件比较差的节点,某些pod又希望调度到含有比如有特定的硬件GPU的节点上。又或者某个节点由于硬件资源比如CPU,内存并没有彻底耗尽,但如果在继续调度pod到此节点有造成集群崩溃的风险,如何阻止并驱逐此节点在运行的pod,以及集群需要检修或者重建某个节点,此时的节点上运行....

文章 2022-11-08 来自:开发者社区

云原生|kubernetes |一文带你搞懂pod调度策略,驱逐策略,污点、容忍调度(三)

(2)亲和性pod调度pod和node节点标签之间的定向调度上面的定向调度还是比较粗糙的方式,因为如果我们设置了定向调度,但标签忘记打了,或者标签写错了,nodeSelector又设置了,那么部署将会变成pending。无疑,我们还是希望每次的部署都是成功的,因此,我们需要一种或者几种更为精细的pod调度。a)NodeAffinity(节点亲和性)pod.spec.affinity.nodeAf....

文章 2022-11-08 来自:开发者社区

云原生|kubernetes |一文带你搞懂pod调度策略,驱逐策略,污点、容忍调度(二)

关于污点的小结:污点存在的意义:使用 kubectl taint 命令可以给某个 node节点设置污点,Node 被设置上污点之后就和 Pod 之间存在了一种互斥的关系,可以让 Node 拒绝 Pod 的调度执行,甚至将 Node 已经存在的 Pod 驱逐出去:key=value:effect 通过给节点设置不同的污点,可以制定一个总的策略,例如,新节点使用effect NoExecute,那么....

文章 2022-11-08 来自:开发者社区

云原生|kubernetes |一文带你搞懂pod调度策略,驱逐策略,污点、容忍调度(一)

前言:kubernetes集群不是简单的安装部署就完事了,还需要根据业务的性质设定一些策略,比如,某些pod不希望被调度到硬件条件比较差的节点,某些pod又希望调度到含有比如有特定的硬件GPU的节点上。又或者某个节点由于硬件资源比如CPU,内存并没有彻底耗尽,但如果在继续调度pod到此节点有造成集群崩溃的风险,如何阻止并驱逐此节点在运行的pod,以及集群需要检修或者重建某个节点,此时的节点上运行....

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

阿里云云原生

关注云原生中间件、微服务、Serverless、容器、Service Mesh等技术领域、聚焦云原生技术趋势、云原生大规模的落地实践

+关注