AI时代的GPU云服务器

深度优化的GPU算力为模型推理、图形处理提供更强性能支持

  • 多样算力

    采用新一代GPU加速芯片,为智能驾驶、具身智能、模型推理与训练提供算力支持
  • 深度优化

    提供对推理引擎、推理性能、通信效率深度优化的解决方案能力,为AI应用落地与推理加速
  • 安全可靠

    提供机密计算,虚拟化加密等能力,全方位保障用户推理数据和企业模型安全
  • 灵活弹性

    无需固定资产的投入,资源按需使用,成本大大降低,让客户享受技术红利
  • 1/0

    产品动态

    产品简介

    GPU云服务器(elastic GPU service,EGS)是阿里云推出的安全稳定,可按需弹性使用的GPU算力平台,专为满足人工智能计算、图形渲染、科学仿真等高性能计算场景需求而设计。EGS持续集成各类最新GPU加速芯片,结合神龙计算架构实现超低IO延迟,提供针对性的规格实例和优化解决方案为各个场景提供优秀的算力。产品支持包年包月、按量付费及抢占式等多种购买模式,单卡部署至万卡集群均可灵活适配,满足业务全周期弹性扩展需求。依托全球28个地域的分布式算力资源和弹性服务能力,EGS可支撑企业快速构建跨区域计算网络,同时通过阿里云各类配套功能如容器服务、ESSD云盘、NAS服务,云安全等云产品生态的无缝集成,结合cGPU等加速方案和服务软件,有效降低了GPU集群使用门槛,帮助开发者简化训练与推理流程,显著提升计算资源利用率,助力企业降低IT成本,专注核心业务创新。
    GPU 云服务器

    产品优势

    阿里云GPU云服务器是基于GPU与CPU的IaaS(Infrastructure as a Service)级别计算服务,为智能驾驶、具身智能、模型推理与训练提供算力支持。 选择GPU云服务器,您可以轻松构建具备有以下优势的计算资源。
    img

    弹性能力

    计算节点支持包年包月、按量付费、抢占式实例等计费方式,结合弹性伸缩服务,为业务所使用的资源量随用户业务的波峰波谷自动按需开通。同时,配套的存储,VPC,外网带宽等重要资源也可随时按需调整,为用户节约每一分成本。

    img

    优化和加速

    AI加速解决方案工具包是阿里云针对AI场景,基于GPU云服务器为用户提供的开箱即用的解决方案和软件工具集,通过对热门模型框架进行深度优化、对GPU通信优化配置以及提供更加灵活的容器共享能力等技术手段,为用户提供高性能、低时延的模型推理服务,提升GPU资源的使用效率和性价比。

    img

    故障恢复

    随着AI业务的大规模部署,用户的业务依赖整个GPU计算集群的稳定可靠运行。每一个GPU计算节点的健康度和故障风险是集群计算服务的关键因素,必须时刻监控并发现潜在风险,同时故障后要快速替换,避免由于部分节点故障影响整体稳定性。阿里云提供巡检服务以提前发现硬件故障,支持您通过自助诊断功能快速定位问题,主动运维系统可以快速发现用户节点的故障并协助用户在几分钟内完成故障节点的替换。

    img

    机密计算

    GPU 机密计算实例,基于NVIDIA CC( Confidential Computing )与CPU的TDX/SEV加密结合,进一步将GPU引入到可信执行环境中,以保证模型与用户数据的安全性,以及模型推理服务环境中的所有组件(推理服务框架、模型文件、交互式界面等)的代码、数据和配置的完整性。同时搭配存储加密,VPC加密等阿里云安全能力,为用户提供计算、模型、传输、服务全环节的闭环可信环境。

    图片

    Forrester Wave

    Forrester发布公有云平台Wave™评估,阿里云在共30个打分项中有17项为最高分,在战略维度得分上升至全球第二
    Forrester发布公有云平台Wave™评估,阿里云在共30个打分项中有17项为最高分,在战略维度得分上升至全球第二

    安全合规

    卡片头部图

    网络安全

    网络隔离GPU云服务器为用户提供专有网络,帮助用户基于隧道技术实现数据链路层的隔离,为每个用户提供一张独立隔离的虚拟安全网络环境。
    VPC加密保护在VPC中传输的动态数据,防止未授权访问和数据泄露。即使攻击者(尤其是物理网络劫持报文的攻击者)获取了数据,也无法解密其内容。
    卡片头部图

    存储安全

    数据加密GPU云服务器提供云盘加密、数据传输加密、存储加密等多种数据加密方式,为用户的数据安全提供全面保障。
    备份恢复GPU云服务器提供快照备份恢复、镜像备份恢复、内外网数据迁移等方式,以保障用户数据的可靠性和安全性。
    卡片头部图

    计算安全

    主机安全GPU云服务器主机安全提供漏洞扫描、异常登录检测、AK泄露检测、合规检查等能力。
    机密计算GPU云服务器提供机密计算能力,在CPU TDX基础上,进一步将GPU引入到可信执行环境中,以保证模型与用户数据的安全性,以及模型推理服务环境中的所有组件的代码、数据和配置的完整性。

    客户案例

    bannerbannerbannerbannerbanner
    1
    地平线
    地平线是市场领先的乘用车智能辅助驾驶解决方案供应商。阿里云异构计算GPU产品支撑并支持了地平线多项智驾大模型训练任务,提升了智驾模型训练的效率,进一步加速了汽车行业智能化转型。地平线因此与阿里云建立了良好的合作。
    2
    网易
    网易是游戏行业领头公司,网易伏羲深耕AI技术,并在游戏业务中应用实践,服务于《逆水寒》、《永劫无间》等游戏,伏羲构建的AI NPC,智能捏脸,AI Copilot队友等玩法深得广大游戏玩家欢喜爱。 GPU云服务器产品支撑伏羲AI多重模型负载,并通过ACK容器产品统一部署交付,提升了伏羲AI业务交付效率。
    3
    TCL
    TCL是一家全球领先的智能科技企业,创立于1981年,业务涵盖智能终端、半导体显示、新能源材料及人工智能等领域。依托全产业链布局与核心技术研发,TCL以“智能物联生态”驱动高质量发展,致力于为用户与合作伙伴提供创新、可持续的智慧解决方案。基于阿里云GPU 云服务器,构建了一个稳定、高效的AI 基础设施,有力支撑了 AI在制造、研发等高价值应用场景落地。
    4
    朗镜科技(Trax 中国)
    朗镜科技面对每天数以百万的图片识别任务,朗镜科技需要满足97%以上的高精度标准,确保95%以上复杂流程10秒内完成识别,并将上层模型算法推理能力与阿里云DeepGPU工具包紧密结合,利用自研的高性能算子库,成功实现多个计算机视觉模型的推理加速,加速比区间达到1.12至4.60倍。
    了解更多
    5
    Turbo AI
    作为深耕东南亚市场的 AI 基础设施服务商,Turbo AI 通过采用阿里云高效的 AI 基础架构,打造了涵盖弹性 GPU 云服务、AI 全生命周期开发平台、以及行业专家咨询服务的一体化解决方案。借助阿里云最新主售的 GPU 实例及其智能资源调度机制,Turbo AI 实现了算力资源的灵活配置与弹性扩展,进一步提升整体方案的运行效率,同时有效优化客户的综合成本结构。