智算服务PAI-灵骏_AI算力_机器学习PAI_大数据-阿里云

公测中
智算服务 PAI-灵骏
智算服务 PAI-灵骏是面向大规模深度学习及融合智算的PaaS产品,支持公共云Serverless版、单租版以及混合云形态,基于软硬件一体优化技术,构建高性能异构算力底座,提供AI工程化全流程能力,具备高性能、高效率、高利用率等核心优势,满足高性能计算等领域需求,在大模型训练、自动驾驶、基础科研、金融等领域广泛应用。

产品优势

Serverless
公共云 Serverless 形态,快速拉起AI计算任务,自动化运维
高性能网络
800Gbps低延迟网络支持GPU直连,无拥塞技术大幅提升训练速度
高性能存储
CPFS全并行存储架构,单集群最高2TB/s的吞吐和3000万的IOPS
高加速比
自研分布式训练加速引擎,训练的高度优化,充分释放算力

产品形态

公共云 Serverless 版
Serverless 平台产品,一键快速拉起AI计算任务,复杂异构系统自动运维,轻松管理。与云上的计算、存储、网络等各类产品无缝衔接。
我是链接文案
公共云单租版
云上建立客户专属集群,单个客户独享一套AI平台和运维服务。便捷运营管理,云产品互通,使用云上标准的计算、存储、网络服务。
我是链接文案
飞天混合云版
支持混合云的标准架构,提供完整的计算、网络、存储、账号(ASCM),标准的SDK/OpenAPI,物理资源独立部署,支持服务商基于客户业务场景构建业务平台。
我是链接文案

产品功能

新一代AI智算平台,满足大规模AI算力需求
企业级AI开发平台提供AI开发、训练等AI工程化全流程产品能力,支持多种AI角色管理,算力资源管理运维的企业级AI平台。
一站式开通使用算力集群、高性能存储、容器服务、AI 开发平台的一键式开通和全生命周期管理。支持 Serverless 形态,可快速拉起 AI 计算任务,运维全面自动化。
易用的分布式大模型训练只需简单配置即可自动分布式并发执行,优化的计算、网络、通信和存储架构可提高资源利用率,加快模型训练速度,让训练时间和成本大幅缩减。
集群管理通过控制台页面或 OpenAPI 即可快速的进行集群的创建、扩容和缩容操作,提供丰富的监控指标展示、事件类型以及运行统计,通过可视化的方式可快速查看运行情况,定位主机和服务异常,并提供从主机、网络到作业任务的关联诊断分析工具。方便性能调优和问题溯源。
网络联通提供高性能的 RDMA 计算网络、RDMA 存储网络和管控网络,采用高性能和高可用的方式来访问其它阿里云服务,具有强安全隔离、分钟级部署、无级变速、原生高可靠等特点。
高性能存储并行IO访问架构,单集群最高可达2TB/s吞吐和3000万IOPS,支持与云上和线下存储数据互通。

应用场景

大模型训练
科研智算
场景简介
支持Serverless的AI研发场景,支持如GPT-3(175B)、M6(万亿参数)、PLUG、STAR等大模型的训练,提供深度优化的智能计算服务,可为图形图像处理(如AIGC图像生成)、自然语言处理(如AIGC文本生成)、语音、视频等应用场景提供高效、可预期的训练服务,加速迭代效率。
全局优化,更高效率
“万卡级”线性拓展
满足不同规模AI训练算力需求,点对点通信延迟低至2us,算力资源平滑扩容,性能线性拓展
超高吞吐和IOPS
针对AI训练场景,数据预先加载至持久化存储,保障训练时数据加载和写入的高带宽需求,提升训练效率
高资源利用率
对GPU资源进行细粒度切分调度,满足协同开发,技术经双十一大规模应用验证,资源利用率可提升3倍
场景简介
超大规模融合算力,支持深度学习和高性能计算作业统一部署调度,为基础科研、新药研发、工程仿真等场景构建统一标准计算服务,促进范式创新、效率提升,促进AI与HPC开发生态融合。
融合开发生态,促进多元创新
促进科研新范式
支持云原生和容器化的AI和HPC应用生态,为基础科研、新药研发、新材料研发等场景提供统一计算服务,支持跨地区、跨团队协同,提升资源使用率,同时促进技术生态融合,催化协同效应
打造科研大平台
基于RDMA技术和阿里云高性能通信库,构建低时延高带宽网络环境,针对AI+HPC应用进行通信优化,点对点时延可低至2us,最大可支持数万节点并行计算,为大规模科学计算提供极具效率优势的智能计算服务

文档与工具