灵骏系列服务在提供高性能计算能力的同时,注重灵活性、生态兼容性、运维简便性和安全性,是面向大规模AI研发和高性能计算需求的理想选择。
基于软硬件一体优化技术,构建高性能异构算力底座,提供AI工程化全流程能力;支持多种AI角色管理,算力资源管理运维的企业级AI平台。
通过控制台页面或 OpenAPI 即可快速的进行集群的创建、扩容和缩容操作,可视化展示、关联诊断分析工具实现方便的性能调优及快速的问题溯源。
大模型训练只需简单配置即可自动分布式并发执行,优化的计算、网络、通信和存储架构提高资源利用率,加快模型训练速度,大幅缩减训练时间和成本
本方案实现了大模型开发全链路打通,流程全面覆盖训练到部署各环节,简化大模型应用,加速其在业务中的集成。同时,数据预先加载于持久化存储,训练基于Megatron-LM引擎支持了数据并行、算子拆分、流水并行、序列并行、Flashattention等技术,确保了训练效率和模型性能。
左图展示大语言模型(LLM)通过PAI-灵骏从基础开源模型到线上生产应用的开发全链路。涉及的阿里云产品包括机器学习平台PAI、对象存储OSS。步骤包含:资源准备、模型及数据等准备、模型训练、模型离线推理及上传和模型部署这五个阶段。用户在规划好网络和资源、完成资源部署后,可通过Huggingface 或 ModelScope等社区渠道下载Llama2模型,并可在灵骏智算平台的DSW实例中,完成准备预训练数据准备;训练阶段提供多种方案,保障模型效果的同时,提升大模型分布式训练效率;训练所获得的模型可上传至对象存储OSS,并且能够便捷地在PAI-EAS平台部署大模型推理服务。