阿里云文档 2025-04-17

AI Profiling示例参考

本文以Pytorch训练场景和vLLM推理场景为例,对在ACK集群中运行的GPU容器的AI Profiling检测结果进行分析,重点阐述如何通过在线性能检测结果的可视化页面,分析Python进程、CPU调用、系统调用、CUDA库和CUDA核函数的执行过程,定位性能瓶颈,找到性能调优方向,从而提升GPU利用率和应用效率。

阿里云文档 2025-04-02

基于ACK集群的Dify组件升级指南

本文主要指导用户将ack-dify从旧版本升级至v1.0.0及以上,首先备份数据,然后通过命令提取并安装插件迁移工具至插件系统,最后验证插件功能是否正常运行,以启用新的插件生态系统。

阿里云文档 2025-04-01

在ACK中使用KTransformers部署DeepSeek-R1模型

KTransformers框架实现了多种LLM推理优化,进一步减少了推理阶段的显存占用,从而提高推理性能和降低GPU资源成本。本文介绍如何在阿里云容器服务 Kubernetes 版中通过KTransformers实现高效部署671B参数的DeepSeek-R1-Q4_K_M量化模型推理服务。

阿里云文档 2025-03-25

设置Slurm队列优先级

为了更有效地管理和分配资源,优化作业调度,提升系统利用率,并满足多样化的作业需求,队列成为任务调度中不可或缺的配置项。合理的队列设置能够确保高优先级的任务优先获得所需资源,从而最大化资源利用效率。本文介绍在Slurm系统环境下,当出现作业提交或作业状态变化时,如何通过恰当的队列配置策略来实现尽可能多的任务调度处理,以达到最佳性能。

文章 2025-03-17 来自:开发者社区

ACK Gateway with AI Extension:面向Kubernetes大模型推理的智能路由实践

【阅读原文】戳:ACK Gateway with AI Extension:面向Kubernetes大模型推理的智能路由实践 在当今大语言模型(LLM)推理场景中,Kubernetes已经成为LLM推理服务部署不可获取的基础设施,但在LLM流量管理方面、由于LLM推理服务和推理流量的特殊性,传统的负载均衡和路由调度算法已难以满足该类服务的高性能、高可靠性需求。阿里云容...

ACK Gateway with AI Extension:面向Kubernetes大模型推理的智能路由实践
阿里云文档 2025-03-12

Slurm用户及账户配置推荐设置

Slurm提供的账户与用户可被用于管理任务提交以及计费统计。本文主要介绍如何在Slurm集群中正确配置账户和用户,包括创建、修改和删除账户及用户的方法,并深入探讨如何以账户为单位来有效地跟踪和统计任务所消耗的资源量,从而帮助企业或研究机构更好地管理和优化其计算资源的使用效率。

文章 2024-12-10 来自:开发者社区

赋能加速AI应用交付,F5 BIG-IP Next for Kubernetes方案解读

  随着AI工作负载的爆炸式增长,服务提供商和企业需要加速计算,以安全高效地在大规模云上交付高性能的AI应用。前段时间,F5公司宣布推出一项全新的创新AI应用交付和应用安全解决方案,即BIG-IP Next for Kubernetes。那么该方案有何性能优势,是否通过实践验证?本文将为你全面解读。     F5...

赋能加速AI应用交付,F5 BIG-IP Next for Kubernetes方案解读
文章 2023-11-16 来自:开发者社区

探索云原生容器编排技术:如Kubernetes如何为大数据处理和AI模型的自动化部署带来便利

Kubernetes是一个强大的容器编排和自动化部署工具,它为大数据处理和AI模型的自动化部署提供了许多便利。以下是Kubernetes如何为这些应用领域带来便利的一些关键方面:1. 弹性伸缩大数据处理和AI模型训练通常需要大量计算资源。Kubernetes允许你根据负载情况自动扩展容器,确保足够的计算资源可用。这意味着你可以在需要时动态地增加或减少计算节点,以适应工作负载的波动。2. 容器化K....

探索云原生容器编排技术:如Kubernetes如何为大数据处理和AI模型的自动化部署带来便利
文章 2022-12-19 来自:开发者社区

Kubernetes在AI/大数据领域的 最新进展与大规模实践

根据在CNCC 2022开源分布式云原生系统技术发展论坛的演讲整理。在云计算技术快速发展的过程中, Kubernetes 已经成为云原生时代的操作系统。K8s向下屏蔽了底层架构差异性,可以高效调度与编排多样化的异构算力;向上为分布式应用提供了标准化的API。基于阿里云容器平台,我们实现了阿里集团100%业务云原生上云。我们可以看到,从无状态的微服务应用到AI、大数据应用,越来越多的工作负载开始运....

Kubernetes在AI/大数据领域的最新进展与大规模实践
问答 2022-07-23 来自:开发者社区

随着技术演进和社区发展,越来越多有状态应用和大数据/AI 应用负载逐渐迁移到Kubernetes 上

随着技术演进和社区发展,越来越多有状态应用和大数据/AI 应用负载逐渐迁移到Kubernetes 上。Flink、Spark 等开源社区以及Cloudera、Databricks 等商业公司开始在哪些方面加大对Kubernetes 的支持力度?

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

{"cardStyle":"productCardStyle","productCode":"aliyun","productCardInfo":{"productTitle":"阿里云 AI","productDescription":"从 AI 应用构建,模型部署到训练,一站式了解阿里云经典的 AI 应用场景和解决方案。","productContentLink":"https://www.aliyun.com/solution/tech-solution/ai","isDisplayProductIcon":true,"productButton1":{"productButtonText":"查看详情","productButtonLink":"https://www.aliyun.com/solution/tech-solution/ai"},"productButton2":{"productButtonText":"联系 AI 专家","productButtonLink":"https://page.aliyun.com/form/act933288178/index.htm?spm=5176.29311086.J_RY_4Q8--sru4dMV7o3lqS.2.22ec5297YL7w86"},"productButton3":{"productButtonText":"立即体验","productButtonLink":"https://bailian.console.aliyun.com/?spm=5176.28326591.0.0.56136ee1bpor89#/efm/model_experience_center"},"productPromotionInfoBlock":[{"$id":"0","productPromotionGroupingTitle":"热门体验","productPromotionInfoFirstText":"文生文应用","productPromotionInfoFirstLink":"https://bailian.console.aliyun.com/?spm=5176.29311086.J__xR9sQs7AmaTHLBTgN3VS.1.22ec52978mJi5p#/home","productPromotionInfoSecondText":"文生图应用","productPromotionInfoSecondLink":"https://bailian.console.aliyun.com/?spm=5176.29311086.J__xR9sQs7AmaTHLBTgN3VS.2.22ec52978mJi5p#/efm/model_experience_center?modelId=wanx-v1"},{"$id":"1","productPromotionGroupingTitle":"热门产品","productPromotionInfoFirstText":"大模型服务平台百炼","productPromotionInfoFirstLink":"https://www.aliyun.com/product/bailian","productPromotionInfoSecondText":"人工智能平台 PAI","productPromotionInfoSecondLink":"https://www.aliyun.com/product/bigdata/learn"},{"$id":"2","productPromotionGroupingTitle":"技术解决方案","productPromotionInfoFirstText":"向量检索与通义千问搭建专属问答服务","productPromotionInfoFirstLink":"https://www.aliyun.com/solution/tech-solution/dashvector","productPromotionInfoSecondText":"创意加速器:AI 绘画创作","productPromotionInfoSecondLink":"https://www.aliyun.com/solution/tech-solution/tongyi-wanxiang"},{"$id":"3","productPromotionGroupingTitle":"热门模型","productPromotionInfoFirstText":"通义千问","productPromotionInfoFirstLink":"https://tongyi.aliyun.com","productPromotionInfoSecondText":"通义万相","productPromotionInfoSecondLink":"https://tongyi.aliyun.com/wanxiang"}],"isOfficialLogo":false},"activityCardInfo":{"activityTitle":"","activityDescription":"","cardContentBackgroundMode":"LightMode","activityContentBackgroundImageLink":"","activityCardBottomInfoSelect":"activityPromotionInfoBlock","activityPromotionInfoBlock":[]}}

阿里云机器学习平台PAI

阿里云机器学习PAI(Platform of Artificial Intelligence)面向企业及开发者,提供轻量化、高性价比的云原生机器学习平台,涵盖PAI-iTAG智能标注平台、PAI-Designer(原Studio)可视化建模平台、PAI-DSW云原生交互式建模平台、PAI-DLC云原生AI基础平台、PAI-EAS云原生弹性推理服务平台,支持千亿特征、万亿样本规模加速训练,百余落地场景,全面提升工程效率。

+关注