阿里云文档 2025-11-26

基于专家并行和PD分离部署MoE模型

混合专家模型(MoE)通过“稀疏激活”机制,在实现万亿级参数规模的同时降低计算成本,但也给传统推理部署带来挑战。专家并行(EP)是一种专为MoE设计的分布式策略,它将不同专家部署在不同GPU上,通过动态路由请求,有效解决显存瓶颈、提升并行计算性能,并显著降低部署成本。本文介绍在PAI-EAS上,为MoE模型启用专家并行(EP)和Prefill-Decode(PD)分离部署,以实现更高的推理吞吐和成...

文章 2025-10-03 来自:开发者社区

139_剪枝优化:稀疏模型压缩 - 分析结构化剪枝的独特速度提升与LLM部署加速实践

引言 随着大语言模型(LLM)规模的不断增长,模型参数量已从最初的数亿扩展到数千亿甚至万亿级别。这种规模的模型在推理过程中面临着巨大的计算和内存挑战,即使在最先进的硬件上也难以高效部署。剪枝优化作为一种有效的模型压缩技术,通过移除冗余或不重要的参数,在保持模型性能的同时显著减少计算资源需求。 结构化剪枝作为剪枝技术的一个重要分支࿰...

139_剪枝优化:稀疏模型压缩 - 分析结构化剪枝的独特速度提升与LLM部署加速实践
阿里云文档 2025-08-21

部署单机LLM推理服务

本文以Qwen3-32B模型为例,演示如何在ACK中使用vLLM及SGLang部署单机LLM推理服务。

阿里云文档 2025-03-19

在ACK Edge集群中部署混合云LLM弹性推理

为解决混合云场景下部署LLM推理业务时,流量的不均衡带来的数据中心GPU资源分配问题,ACK Edge集群提供了一套混合云LLM弹性推理解决方案,帮您统一管理云上和云下的GPU资源,低峰期优先使用云下数据中心资源,高峰期资源不足时快速启用云上资源。该方案帮您显著降低LLM推理服务运营成本,动态调整并灵活利用资源,保障服务稳定性,避免资源闲置。

阿里云文档 2024-08-27

使用TensorRT-LLM部署Qwen2模型推理服务

本文以Qwen2-1.5B-Instruct模型、GPU类型为A10卡为例,演示如何在ACK中使用Triton推理服务 + TensorRT-LLM部署通义千问模型推理服务。模型部署过程中使用Fluid Dataflow完成模型准备工作,并使用Fluid提升模型加载速度。

文章 2024-08-16 来自:开发者社区

Xinference实战指南:全面解析LLM大模型部署流程,携手Dify打造高效AI应用实践案例,加速AI项目落地进程

Xinference实战指南:全面解析LLM大模型部署流程,携手Dify打造高效AI应用实践案例,加速AI项目落地进程 Xorbits Inference (Xinference) 是一个开源平台,用于简化各种 AI 模型的运行和集成。借助 Xinference,您可以使用任何开源 LLM、嵌入模型和多模态模型在云端或本地环境中运行推理,并创建强大的 AI 应用。通过 Xorbits Infe.....

Xinference实战指南:全面解析LLM大模型部署流程,携手Dify打造高效AI应用实践案例,加速AI项目落地进程
阿里云文档 2024-07-26

基于ACK使用rtp-llm部署Qwen模型推理服务

本文以Qwen1.5-4B-Chat模型、GPU类型为A10和T4卡为例,演示如何在ACK中使用rtp-llm框架部署通义千问(Qwen)模型推理服务。

文章 2024-05-31 来自:开发者社区

LLM 大模型学习必知必会系列(十二):VLLM性能飞跃部署实践:从推理加速到高效部署的全方位优化[更多内容:XInference/FastChat等框架]

LLM 大模型学习必知必会系列(十二):VLLM性能飞跃部署实践:从推理加速到高效部署的全方位优化[更多内容:XInference/FastChat等框架] 训练后的模型会用于推理或者部署。推理即使用模型用输入获得输出的过程,部署是将模型发布到恒定运行的环境中推理的过程。一般来说,LLM的推理可以直接使用PyTorch代码、使用VLLM/XInference/FastChat等框架,也可以使用.....

LLM 大模型学习必知必会系列(十二):VLLM性能飞跃部署实践:从推理加速到高效部署的全方位优化[更多内容:XInference/FastChat等框架]
文章 2023-12-26 来自:开发者社区

魔搭社区LLM模型部署实践, 以ChatGLM3为例(一)

魔搭社区LLM模型部署实践, 以ChatGLM3为 例本文以ChatGLM3-6B为例, 主要介绍在魔搭社区如何部署LLM, 主要包括如下内容:● SwingDeploy - 云端部署, 实现零代码一键部署● 多端部署 - MAC个人笔记本, CPU服务器● 定制化模型部署 - 微调后部署一 、 SwingDeploy - 云端部署, 零代码一键部署魔搭社区SwingDeploy链接:https....

魔搭社区LLM模型部署实践, 以ChatGLM3为例(一)
文章 2023-12-26 来自:开发者社区

魔搭社区LLM模型部署实践, 以ChatGLM3为例(二)

二 、多端部署-以ChatGLM3+个人Mac电脑为例魔搭社区和Xinference合作, 提供了模型GGML的部署方式, 以ChatGLM3为例。Xinference支持大语言模型, 语音识别模型, 多模态模型的部署, 简化了部署流程, 通过一行命令完 成模型的部署工作 。并支持众多前沿的大语言模型, 结合GGML技术, 支持多端部署 。Xinference的 合作文章具体可以参考这篇文章《之....

魔搭社区LLM模型部署实践, 以ChatGLM3为例(二)

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

{"cardStyle":"productCardStyle","productCode":"kvstore","productCardInfo":{"productTitle":"Tair KVCache","productDescription":"阿里云数据库 Tair KVCache 为 LLM 推理提供分布式动态分级缓存服务,通过软硬协同设计实现智能路由和缓存资源的最优管理,优化 GPU 服务器资源利用率的同时提升 LLM 推理的速度和吞吐性能,实现降本增效。","productContentLink":"https://www.aliyun.com/product/kvcache","isDisplayProductIcon":true,"productButton1":{"productButtonText":"了解详情","productButtonLink":"https://www.aliyun.com/product/kvcache"},"productButton2":{"productButtonText":"立即咨询","productButtonLink":"https://page.aliyun.com/form/act176452088/index.htm?spm=5176.30063692.J__Z58Z6CX7MY__Ll8p1ZOR.1.66a55ac316TezL"},"productButton3":{"productButtonText":"","productButtonLink":""},"productPromotionInfoBlock":[{"$id":"0","productPromotionGroupingTitle":"最新活动","productPromotionInfoFirstText":"","productPromotionInfoFirstLink":"","productPromotionInfoSecondText":"邀请试用","productPromotionInfoSecondLink":"https://page.aliyun.com/form/act176452088/index.htm?spm=5176.30063692.J__Z58Z6CX7MY__Ll8p1ZOR.3.66a55ac316TezL"},{"$id":"1","productPromotionGroupingTitle":"快速入门","productPromotionInfoFirstText":"Tair KVCache 产品介绍","productPromotionInfoFirstLink":"https://help.aliyun.com/zh/redis/product-overview/tair-kvcache?spm=5176.30063692.J_zhz1C6uKKPBvN1fur6xih.1.b87b5ac3Iu5Wen#ef4997358dmto","productPromotionInfoSecondText":"","productPromotionInfoSecondLink":""},{"$id":"2","productPromotionGroupingTitle":"产品动态","productPromotionInfoFirstText":"","productPromotionInfoFirstLink":"","productPromotionInfoSecondText":"Tair KVCache 推理缓存解决方案","productPromotionInfoSecondLink":"https://developer.aliyun.com/article/1658082"},{"$id":"3","productPromotionGroupingTitle":"产品推荐","productPromotionInfoFirstText":"云数据库 Tair(兼容 Redis®*)","productPromotionInfoFirstLink":"https://www.aliyun.com/product/tair","productPromotionInfoSecondText":"","productPromotionInfoSecondLink":""}],"isOfficialLogo":false},"activityCardInfo":{"activityTitle":"","activityDescription":"","cardContentBackgroundMode":"LightMode","activityContentBackgroundImageLink":"","activityCardBottomInfoSelect":"activityPromotionInfoBlock"}}