文章 2025-05-01 来自:开发者社区

ACK AI Profiling:从黑箱到透明的问题剖析

【阅读原文】戳:ACK AI Profiling:从黑箱到透明的问题剖析 01. 背景   Kubernetes 作为 AI 时代下主要的操作系统,承载了绝大多数的 LLM 训练和推理的业务负载,这些 LLM 负载的普及推动了对 AI 训练与推理的精细化性能检测与调优需求,那么如何对一个在线的 AI 业务负载进行精细化的 Profi...

ACK AI Profiling:从黑箱到透明的问题剖析
阿里云文档 2025-04-17

AI Profiling示例参考

本文以Pytorch训练场景和vLLM推理场景为例,对在ACK集群中运行的GPU容器的AI Profiling检测结果进行分析,重点阐述如何通过在线性能检测结果的可视化页面,分析Python进程、CPU调用、系统调用、CUDA库和CUDA核函数的执行过程,定位性能瓶颈,找到性能调优方向,从而提升GPU利用率和应用效率。

问答 2024-01-22 来自:开发者社区

容器服务ACK Profiling是对应用内部的情况进行监控吗?

容器服务ACK Profiling是对应用内部的情况进行监控吗?

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

阿里云容器服务 ACK

云端最佳容器应用运行环境,安全、稳定、极致弹性

+关注