阿里云文档 2025-11-13

使用TensorRT-LLM构建模型的推理环境

在GPU的实例上安装推理引擎TensorRT-LLM,可以帮助您快速且方便地构建大语言模型(例如Llama模型、ChatGLM模型、百川Baichuan模型或通义千问Qwen模型)的推理环境,主要应用在智能对话系统、文本分析等自然语言处理业务场景。本文为您介绍如何在GPU实例上安装和使用TensorRT-LLM来快速构建大语言模型的高性能推理优化功能。

阿里云文档 2025-04-14

如何在GPU硬件上使用PAI-Blade量化优化

PAI-Blade支持TensorFlow和PyTorch模型在GPU硬件、端侧设备的INT8量化。本文主要介绍在GPU硬件上,如何使用PAI-Blade量化优化。

文章 2025-04-10 来自:开发者社区

PyTorch CUDA内存管理优化:深度理解GPU资源分配与缓存机制

在深度学习工程实践中,当训练大型模型或处理大规模数据集时,上述错误信息对许多开发者而言已不陌生。这是众所周知的 CUDA out of memory 错误——当GPU尝试为张量分配空间而内存不足时发生。这种情况尤为令人沮丧,特别是在已投入大量时间优化模型和代码后遭遇此类问题。 torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to ...

PyTorch CUDA内存管理优化:深度理解GPU资源分配与缓存机制
阿里云文档 2024-05-09

AI通信加速库DeepNCCL的架构、性能以及优化原理

DeepNCCL是为阿里云神龙异构产品开发的一种用于多GPU互联的AI通信加速库,在AI分布式训练或多卡推理任务中用于提升通信效率。本文主要介绍DeepNCCL的架构、优化原理和性能说明。

文章 2023-12-13 来自:开发者社区

技术改变AI发展:RDMA能优化吗?GDR性能提升方案(GPU底层技术系列二)

背景GPUDirect RDMA 是 Kepler 级 GPU 和 CUDA 5.0 中引入的一项技术,可以让使用pcie标准的gpu和第三方设备进行直接的数据交换,而不涉及CPU。传统上,当数据需要在 GPU 和另一个设备之间传输时,数据必须通过 CPU,从而导致潜在的瓶颈并增加延迟。使用 GPUDirect,网络适配器和存储驱动器可以直接读写 GPU 内存,减少不必要的内存消耗,减少 CPU....

技术改变AI发展:RDMA能优化吗?GDR性能提升方案(GPU底层技术系列二)
文章 2023-12-11 来自:开发者社区

技术改变AI发展:CUDA Graph优化的底层原理分析(GPU底层技术系列一)

CUDA 异步执行模型对于GPU运算集中的AI应用场景,为了提升系统的性能,最大化地利用GPU资源是一个重要的优化方向。比较常用的方式是尽量将GPU运算转换为异步操作,CPU侧负责任务提交,保证有足够的cuda kernel发送到GPU,GPU按照CUDA Stream流队列中的Kernel顺序执行。只要这中间不存在同步操作,GPU完全可以不用等待,顺序地将所有的kernel执行完,然后再通知C....

技术改变AI发展:CUDA Graph优化的底层原理分析(GPU底层技术系列一)
文章 2023-12-08 来自:开发者社区

探索AIGC未来:CPU源码优化、多GPU编程与中国算力瓶颈与发展

★人工智能;大数据技术;AIGC;Turbo;DALL·E 3;多模态大模型;MLLM;LLM;Agent;Llama2;国产GPU芯片;GPU;CPU;高性能计算机;边缘计算;大模型显存占用;5G;深度学习;A100;H100;A800;H800;L40s;Intel;英伟达;算力近年来,AIGC的技术取得了长足的进步,其中最为重要的技术之一是基于源代码的CPU调优,可以有效地提高人工智能模型....

探索AIGC未来:CPU源码优化、多GPU编程与中国算力瓶颈与发展
阿里云文档 2023-11-15

如何通过Docker或Kubernetes使用eGPU优化套件,进行GPU容器虚拟化和资源共享

本文以卷积神经网络模型ResNet50的训练和推理为例,为您介绍如何通过Docker或Kubernetes使用eGPU优化套件,进行GPU容器虚拟化和资源共享。本实践中的ResNet50模型基于NVIDIA官方开源代码DeepLearningExamples实现。

文章 2022-02-17 来自:开发者社区

PAI年度巨献:在线推理加速优化,降低推理GPU所需资源

背景 在线推理是抽象的算法模型触达具体的实际业务的最后一公里,PAI已经对外推出了PAI-EAS在线模型服务,帮助大家解决模型服务化的问题,目前已经吸引数百家企业入驻。但是在这个环节中,仍然还有这些已经是大家共识的痛点和诉求: 1.任何线上产品的用户体验都与服务的响应时长成反比,复杂的模型如何极致地压缩请求时延?2.模型推理通常是资源常驻型服务,如何通过提升服务单机性能从而增加QPS同时大幅降低....

PAI年度巨献:在线推理加速优化,降低推理GPU所需资源
文章 2022-02-17 来自:开发者社区

阿里云超算集谛优化GPU异构并行性能:GROMACS

作者:慕笛“集谛”是一款内置于阿里云弹性高性能计算(Elastic High Performance Computing,E-HPC)的云上性能监控与分析引擎,支持集群资源利用情况的实时监控和用户作业运行情况的在线分析。对于采用GPU加速的异构计算应用场景,“集谛”除了监控节点host端资源外还能监控GPU device端的资源利用情况,给出GPU利用率、显存利用率和PCI-E数据传输带宽等性能....

阿里云超算集谛优化GPU异构并行性能:GROMACS

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

云服务器ECS

做技术先进、性能优异、稳如磐石的弹性计算!

+关注