阿里云文档 2025-11-13

使用TensorRT-LLM构建模型的推理环境

在GPU的实例上安装推理引擎TensorRT-LLM,可以帮助您快速且方便地构建大语言模型(例如Llama模型、ChatGLM模型、百川Baichuan模型或通义千问Qwen模型)的推理环境,主要应用在智能对话系统、文本分析等自然语言处理业务场景。本文为您介绍如何在GPU实例上安装和使用TensorRT-LLM来快速构建大语言模型的高性能推理优化功能。

阿里云文档 2025-04-14

如何在GPU硬件上使用PAI-Blade量化优化

PAI-Blade支持TensorFlow和PyTorch模型在GPU硬件、端侧设备的INT8量化。本文主要介绍在GPU硬件上,如何使用PAI-Blade量化优化。

问答 2024-08-07 来自:开发者社区

HybridBackend在解决GPU等设备使用率问题时,采用了哪些优化技术?

HybridBackend在解决GPU等设备使用率问题时,采用了哪些优化技术?

文章 2024-01-09 来自:开发者社区

阿里云ACK助力GPU成本优化,实现灵活管理

阿里云ACK助力GPU成本优化,实现灵活管理摘要:本文将介绍如何在阿里云容器服务ACK中,利用cGPU技术,共享GPU算力,提高GPU利用率,降低TCO。视频处理、科学计算等应用场景中,GPU云服务器是重要的计算服务。然而,对于GPU利用率不高的应用,如推理的应用...

文章 2023-12-13 来自:开发者社区

技术改变AI发展:RDMA能优化吗?GDR性能提升方案(GPU底层技术系列二)

背景GPUDirect RDMA 是 Kepler 级 GPU 和 CUDA 5.0 中引入的一项技术,可以让使用pcie标准的gpu和第三方设备进行直接的数据交换,而不涉及CPU。传统上,当数据需要在 GPU 和另一个设备之间传输时,数据必须通过 CPU,从而导致潜在的瓶颈并增加延迟。使用 GPUDirect,网络适配器和存储驱动器可以直接读写 GPU 内存,减少不必要的内存消耗,减少 CPU....

技术改变AI发展:RDMA能优化吗?GDR性能提升方案(GPU底层技术系列二)
文章 2023-12-11 来自:开发者社区

技术改变AI发展:CUDA Graph优化的底层原理分析(GPU底层技术系列一)

CUDA 异步执行模型对于GPU运算集中的AI应用场景,为了提升系统的性能,最大化地利用GPU资源是一个重要的优化方向。比较常用的方式是尽量将GPU运算转换为异步操作,CPU侧负责任务提交,保证有足够的cuda kernel发送到GPU,GPU按照CUDA Stream流队列中的Kernel顺序执行。只要这中间不存在同步操作,GPU完全可以不用等待,顺序地将所有的kernel执行完,然后再通知C....

技术改变AI发展:CUDA Graph优化的底层原理分析(GPU底层技术系列一)
文章 2023-12-08 来自:开发者社区

探索AIGC未来:CPU源码优化、多GPU编程与中国算力瓶颈与发展

★人工智能;大数据技术;AIGC;Turbo;DALL·E 3;多模态大模型;MLLM;LLM;Agent;Llama2;国产GPU芯片;GPU;CPU;高性能计算机;边缘计算;大模型显存占用;5G;深度学习;A100;H100;A800;H800;L40s;Intel;英伟达;算力近年来,AIGC的技术取得了长足的进步,其中最为重要的技术之一是基于源代码的CPU调优,可以有效地提高人工智能模型....

探索AIGC未来:CPU源码优化、多GPU编程与中国算力瓶颈与发展
文章 2023-12-08 来自:开发者社区

推荐场景GPU优化的探索与实践:CUDA Graph与多流并行的比较与分析

作者:阿里巴巴控股集团-智能引擎事业部-董纪莹背景&问题RTP 系统(即 Rank Service),是一个面向搜索和推荐的 ranking 需求,支持多种模型的在线 inference 服务。在过去的几年里,我们对于RTP业务的GPU性能优化已经做了不少尝试,包括kernel fusion,CUDA Graph等。在此基础上,今年我们又在RTP上集成了Multi Stream,改变了T....

推荐场景GPU优化的探索与实践:CUDA Graph与多流并行的比较与分析
文章 2023-12-07 来自:开发者社区

阿里云林立翔:基于阿里云GPU的AIGC小规模训练优化方案

本篇文章围绕生成式AI技术栈、生成式AI微调训练和性能分析、ECS GPU实例为生成式AI提供算力保障、应用场景案例等相关话题展开。一、生成式AI技术栈介绍1、生成式AI爆发的历程在2022年的下半年,业界迎来了生成式AI的全面爆发,尤其是以ChatGPT为代表的大语言模型和以Stable Diffusion为代表的图片生成类模型。举个例子,某幼儿园老师要求家长写一篇1500字的关于家庭教育法的....

阿里云林立翔:基于阿里云GPU的AIGC小规模训练优化方案
文章 2023-11-16 来自:开发者社区

多GPU训练大型模型:资源分配与优化技巧 | 英伟达将推出面向中国的改良芯片HGX H20、L20 PCIe、L2 PCIe

★大模型、人工智能;数据并行;模型并行;流水线并行;混合精度训练、梯度累积;模型卸载CPU;重算;模型压缩;内存优化版优化器;Nvidia;A100;H100;A800;H800;L40s;混合专家;910B;HGX H20;L20 PCIe;L2 PCIe在人工智能领域,大型模型因其强大的预测能力和泛化性能而备受瞩目。然而,随着模型规模的不断扩大,计算资源和训练时间成为制约其发展的重大挑战。特....

多GPU训练大型模型:资源分配与优化技巧 | 英伟达将推出面向中国的改良芯片HGX H20、L20 PCIe、L2 PCIe

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

云服务器ECS

做技术先进、性能优异、稳如磐石的弹性计算!

+关注