

计算节点支持包年包月、按量付费、抢占式实例等计费方式,结合弹性伸缩服务,为业务所使用的资源量随用户业务的波峰波谷自动按需开通。同时,配套的存储,VPC,外网带宽等重要资源也可随时按需调整,为用户节约每一分成本。

AI加速解决方案工具包是阿里云针对AI场景,基于GPU云服务器为用户提供的开箱即用的解决方案和软件工具集,通过对热门模型框架进行深度优化、对GPU通信优化配置以及提供更加灵活的容器共享能力等技术手段,为用户提供高性能、低时延的模型推理服务,提升GPU资源的使用效率和性价比。

随着AI业务的大规模部署,用户的业务依赖整个GPU计算集群的稳定可靠运行。每一个GPU计算节点的健康度和故障风险是集群计算服务的关键因素,必须时刻监控并发现潜在风险,同时故障后要快速替换,避免由于部分节点故障影响整体稳定性。阿里云提供巡检服务以提前发现硬件故障,支持您通过自助诊断功能快速定位问题,主动运维系统可以快速发现用户节点的故障并协助用户在几分钟内完成故障节点的替换。

GPU 机密计算实例,基于NVIDIA CC( Confidential Computing )与CPU的TDX/SEV加密结合,进一步将GPU引入到可信执行环境中,以保证模型与用户数据的安全性,以及模型推理服务环境中的所有组件(推理服务框架、模型文件、交互式界面等)的代码、数据和配置的完整性。同时搭配存储加密,VPC加密等阿里云安全能力,为用户提供计算、模型、传输、服务全环节的闭环可信环境。

网络安全

存储安全

计算安全









