使用 NVIDIA NIM 在阿里云容器服务(ACK)中加速 LLM 推理
大语言模型(LLM)是近年来发展迅猛并且激动人心的热点话题,引入了许多新场景,满足了各行各业的需求。随着开源模型能力的不断增强,越来越多的企业开始尝试在生产环境中部署开源模型,将 AI 模型接入到现有的基础设施,优化系统延迟和吞吐量,完善监控和安全等方面。然而要在生产环境中部署这一套模型推理服务过程复杂且耗时。为了简化流程,帮助企业客户加速部署生成式 AI 模型,本文结合 **NVIDIA NI....

使用NVIDIA NIM在阿里云ACK中加速LLM推理
【阅读原文】戳:使用NVIDIA NIM在阿里云ACK中加速LLM推理 大语言模型(LLM)是近年来发展迅猛并且激动人心的热点话题,引入了许多新场景,满足了各行各业的需求。随着开源模型能力的不断增强,越来越多的企业开始尝试在生产环境中部署开源模型,将AI模型接入到现有的基础设施,优化系统延迟和吞吐量,完善监控和安全等方面。然而要在生产环境中部署这一套模型推理服务过程复杂且耗时。...

魔搭社区利用 NVIDIA TensorRT-LLM 加速开源大语言模型推理
“魔搭社区是中国最大的模型开源社区,致力给开发者提供模型即服务的体验。魔搭社区利用 NVIDIA TensorRT-LLM,大大提高了大语言模型的推理性能,方便了模型应用部署,提高了大模型产业应用效率,更大规模地释放大模型的应用价值。” 周文猛,魔搭社区技术负责人,阿里巴巴通义实验室技术总监 魔搭上线 TensorRT-LLM,支持开源LLM模型推理加速 魔搭社...

基于 NVIDIA Megatron-Core 的 MoE LLM 实现和训练优化
作者:黄俊,阿里云资深算法专家 本文将分享阿里云人工智能平台 PAI 团队与 NVIDIA Megatron-Core 团队在 MoE (Mixture of Experts) 大型语言模型(LLM)实现与训练优化上的创新工作。分享内容将按以下脉络展开: 1. 首先简短回顾 MoE 技术的发展历程,提炼核心概念及其在实践应用中亟待解决的关键挑战...

使用NVIDIA TensorRT-LLM支持CodeFuse-CodeLlama-34B上的int4量化和推理优化实践
本文首发于 NVIDIA一、概述CodeFuse(https://github.com/codefuse-ai)是由蚂蚁集团开发的代码语言大模型,旨在支持整个软件开发生命周期,涵盖设计、需求、编码、测试、部署、运维等关键阶段。为了在下游任务上获得更好的精度,CodeFuse 提出了多任务微调框架(MFTCoder),能够解决数据不平衡和不同收敛速度的问题。通过对比多个预训练基座模型的精度表现,我....

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。