技术改变AI发展:RDMA能优化吗?GDR性能提升方案(GPU底层技术系列二)

技术改变AI发展:RDMA能优化吗?GDR性能提升方案(GPU底层技术系列二)

背景GPUDirect RDMA 是 Kepler 级 GPU 和 CUDA 5.0 中引入的一项技术,可以让使用pcie标准的gpu和第三方设备进行直接的数据交换,而不涉及CPU。传统上,当数据需要在 GPU 和另一个设备之间传输时,数据必须通过 CPU,从而导致潜在的瓶颈并增加延迟。使用 GPU...

技术改变AI发展:CUDA Graph优化的底层原理分析(GPU底层技术系列一)

技术改变AI发展:CUDA Graph优化的底层原理分析(GPU底层技术系列一)

CUDA 异步执行模型对于GPU运算集中的AI应用场景,为了提升系统的性能,最大化地利用GPU资源是一个重要的优化方向。比较常用的方式是尽量将GPU运算转换为异步操作,CPU侧负责任务提交,保证有足够的cuda kernel发送到GPU,GPU按照CUDA Stream...

探索AIGC未来:CPU源码优化、多GPU编程与中国算力瓶颈与发展

探索AIGC未来:CPU源码优化、多GPU编程与中国算力瓶颈与发展

★人工智能;大数据技术;AIGC;Turbo;DALL·E 3;多模态大模型;MLLM;LLM;Agent;Llama2;国产GPU芯片;GPU;CPU;高性能计算机;边缘计算;大模型显存占用;5G;深度学习;A100࿱...

推荐场景GPU优化的探索与实践:CUDA Graph与多流并行的比较与分析

推荐场景GPU优化的探索与实践:CUDA Graph与多流并行的比较与分析

作者:阿里巴巴控股集团-智能引擎事业部-董纪莹背景&问题RTP 系统(即 Rank Service),是一个面向搜索和推荐的 ranking 需求,支持多种模型的在线 inference 服务。在过去的几年里,我们对于RTP业务的GPU性能优化已经做了不少尝试,包括kernel fusion...

阿里云林立翔:基于阿里云GPU的AIGC小规模训练优化方案

阿里云林立翔:基于阿里云GPU的AIGC小规模训练优化方案

本篇文章围绕生成式AI技术栈、生成式AI微调训练和性能分析、ECS GPU实例为生成式AI提供算力保障、应用场景案例等相关话题展开。一、生成式AI技术栈介绍1、生成式AI爆发的历程在2022年的下半年,业界迎来了生成式AI的全面爆发,尤其是以ChatGPT为代表的大语言模型和以Stable...

[帮助文档] AI通信加速库Deepnccl的架构、性能以及优化原理_GPU云服务器(EGS)

Deepnccl是为阿里云神龙异构产品开发的一种用于多GPU互联的AI通信加速库,在AI分布式训练或多卡推理任务中用于提升通信效率。本文主要介绍Deepnccl的架构、优化原理和性能说明。

[帮助文档] 什么是AI分布式训练通信优化库AIACC-ACSpeed_GPU云服务器(EGS)

AIACC-ACSpeed(AIACC 2.0-AIACC Communication Speeding)是阿里云推出的AI分布式训练通信优化库AIACC-Training 2.0版本。相比较于分布式训练AIACC-Training 1.5版本,AIACC-ACSpeed基于模块化的解耦优化设计方案...

美团视觉GPU推理服务部署架构优化实战

美团视觉GPU推理服务部署架构优化实战

🌷🍁 博主 libin9iOak带您 Go to New World.✨🍁🦄 个人主页——libin9iOak的博客🎐🐳 《面试题大全》 文章图文并茂🦕生动形象🦖简单易学!欢迎大家来踩踩~🌺🌊 《IDEA开发秘籍》学会IDE...

以加速 compaction 和 scan 为例:谈 GPU 与 LSM-tree 的优化

以加速 compaction 和 scan 为例:谈 GPU 与 LSM-tree 的优化

  编者按本文系北京大学智能学院在读博士生胡琳所著,目前于 OceanBase 存储组实习,本篇也是 OceanBase 学术系列稿件第二篇。「胡琳:北京大学智能学院在读博士生,博士期间在北京大学数据管理组从事GPU加速图算法的研究,在图算法加速领域取得了一定的成果,发表在SIG...

当模型增长,GPU的显存常常成为训练大模型的瓶颈。EPL提供了多维度的显存优化技术,具体有哪些呢?

当模型增长,GPU的显存常常成为训练大模型的瓶颈。EPL提供了多维度的显存优化技术,具体有哪些呢?

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

社区圈子

云服务器ECS
云服务器ECS
做技术先进、性能优异、稳如磐石的弹性计算!
418258+人已加入
加入
相关电子书
更多
端到端GPU性能在深度学学习场景下的应用实践
DeepStream: GPU加速海量视频数据智能处理
阿里巴巴高性能GPU架构与应用
立即下载 立即下载 立即下载

GPU云服务器优化相关内容