阿里云文档 2026-03-20

使用数据盘快照预热镜像以加速ACK节点扩容

在AI、大数据等需要频繁扩容的业务场景中,新节点加入集群时,拉取组件和业务镜像会消耗大量时间。为提升节点就绪速度,可将组件、镜像等预先缓存至数据盘快照,使新节点可以从本地磁盘直接加载数据,从而提升扩容效率。

阿里云文档 2026-02-27

基于ACK搭建一个具备大模型和向量检索功能的知识库应用程序

本文主要介绍如何基于阿里云ACK集成DeepGPU-LLM推理引擎与AnalyticDB PostgreSQL云原生数据仓库,结合LangChain-ChatChat开源框架,可快速搭建检索增强生成(RAG)大模型知识库系统。

阿里云文档 2025-12-25

利用PyTorch Profiler实现大模型的性能分析和故障排查

本文介绍PyTorch Profiler结合TensorBoard分析模型性能,分别从数据加载、数据传输、GPU计算、模型编译等优化思路去提升模型训练的性能。最后总结了一些会导致CPU和GPU同步的常见的PyTorch API,在使用这些API时需要考虑是否会带来性能影响。

文章 2025-04-16 来自:开发者社区

ACK Gateway with Inference Extension:优化多机分布式大模型推理服务实践

【阅读原文】戳:ACK Gateway with Inference Extension:优化多机分布式大模型推理服务实践 ACK Gateway with Inference Extension组件专为LLM推理场景设计,支持四层/七层流量路由,并提供基于模型服务器负载智能感知的负载均衡能力。此外,通过InferencePool和InferenceModel自定义资...

ACK Gateway with Inference Extension:优化多机分布式大模型推理服务实践
文章 2025-03-18 来自:开发者社区

ACK Gateway with AI Extension:大模型推理的模型灰度实践

【阅读原文】戳:ACK Gateway with AI Extension:大模型推理的模型灰度实践 ACK Gateway with AI Extension组件专为LLM推理场景设计,支持四层/七层流量路由,并提供基于模型服务器负载智能感知的负载均衡能力。此外,通过InferencePool和InferenceModel自定义资源(CRD),可以灵活定义推理服务的...

ACK Gateway with AI Extension:大模型推理的模型灰度实践
文章 2025-03-17 来自:开发者社区

ACK Gateway with AI Extension:面向Kubernetes大模型推理的智能路由实践

【阅读原文】戳:ACK Gateway with AI Extension:面向Kubernetes大模型推理的智能路由实践 在当今大语言模型(LLM)推理场景中,Kubernetes已经成为LLM推理服务部署不可获取的基础设施,但在LLM流量管理方面、由于LLM推理服务和推理流量的特殊性,传统的负载均衡和路由调度算法已难以满足该类服务的高性能、高可靠性需求。阿里云容...

ACK Gateway with AI Extension:面向Kubernetes大模型推理的智能路由实践
阿里云文档 2025-02-13

在Knative服务中基于Fluid加速大模型推理服务Pod启动

Fluid是一个开源的、Kubernetes原生的分布式数据集编排和加速引擎,主要应用于云原生场景下的数据密集型应用,例如大数据应用、AI应用等。本文介绍如何在Knative中基于Fluid加速模型推理服务Pod的启动,以提升应用响应效率。

文章 2024-06-12 来自:开发者社区

容器服务 ACK 大模型推理最佳实践系列一:TensorRT-LLM

【阅读原文】戳:容器服务 ACK 大模型推理最佳实践系列一:TensorRT-LLM 在ACK中使用KServe部署Triton+TensorRT-LLM。本教程以Llama-2-7b-hf模型为例,演示如何在ACK中使用KServe部署Triton框架。Triton采用TensorRT-LLM后端。     背景介绍 &nb...

容器服务 ACK 大模型推理最佳实践系列一:TensorRT-LLM

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。