阿里云文档 2024-02-08

如何在GPU硬件上使用PAI-Blade量化优化

PAI-Blade支持TensorFlow和PyTorch模型在GPU硬件、端侧设备的INT8量化。本文主要介绍在GPU硬件上,如何使用PAI-Blade量化优化。

文章 2019-12-19 来自:开发者社区

PAI年度巨献:在线推理加速优化,降低推理GPU所需资源

背景 在线推理是抽象的算法模型触达具体的实际业务的最后一公里,PAI已经对外推出了PAI-EAS在线模型服务,帮助大家解决模型服务化的问题,目前已经吸引数百家企业入驻。但是在这个环节中,仍然还有这些已经是大家共识的痛点和诉求: 1.任何线上产品的用户体验都与服务的响应时长成反比,复杂的模型如何极致地压缩请求时延?2.模型推理通常是资源常驻型服务,如何通过提升服务单机性能从而增加QPS同时大幅降低....

PAI年度巨献:在线推理加速优化,降低推理GPU所需资源

云原生AI套件:一键训练大模型及部署GPU共享推理服务

1 课时 |
58 人已学 |
免费
开发者课程背景图

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

云服务器ECS

做技术先进、性能优异、稳如磐石的弹性计算!

+关注