阿里云文档 2024-11-19

PAI-AI训练任务支持通过云监控或ARMS进行监控与报警

分布式训练(DLC)任务支持查看和监控资源状况,提供详细的监控指标,帮助您掌握资源负载情况。通过监控报警功能,您可以实时监控DLC任务的资源水位,并配置报警规则和通知。如果资源水位出现波动,例如GPU使用率超过设定阈值,会发送报警通知。本文为您介绍如何通过云监控和ARMS查看监控数据、配置监控报警通...

阿里云文档 2024-10-23

向量降维服务训练

向量降维服务训练功能支持结合用户提供的向量数据,定制训练向量降维模型。实际业务场景中,先通过向量化模型对文本或者Query向量化,然后结合向量降维模型降低向量维度。

阿里云文档 2024-05-13

使用AI通信加速库DeepNCCL加速模型的分布式训练或推理性能

DeepNCCL是阿里云神龙异构产品开发的用于多GPU互联的AI通信加速库,能够无感地加速基于NCCL进行通信算子调用的分布式训练或多卡推理等任务。开发人员可以根据实际业务情况,在不同的GPU云服务器上安装DeepNCCL通信库,以加速分布式训练或推理性能。本文主要介绍在Ubuntu或CentOS操作系统的GPU实例上安装和使用DeepNCCL的操作方法。

阿里云文档 2024-04-01

使用抢占式实例弹性训练以降低AI模型的训练成本

为降低使用AI模型训练成本,云原生AI套件推出基于抢占式实例的弹性训练解决方案,该方案可以将AI模型训练这种有状态类型的工作负载运行在抢占式实例上,几乎可以做到在不影响训练作业成功率的情况下降低训练成本。

阿里云文档 2024-01-09

AI加速:使用TorchAcc实现Stable Diffusion模型分布式训练加速

阿里云PAI为您提供了部分典型场景下的示例模型,便于您便捷地接入TorchAcc进行训练加速。本文为您介绍如何在Stable Diffusion分布式训练中接入TorchAcc并实现训练加速。

文章 2021-07-15 来自:开发者社区

数据湖实操讲解【 AI 训练加速】第十八讲:Fluid + JindoFS 对海量小文件的训练加速

本期导读 :【AI 训练加速】第十八讲主题:FFluid + JindoFS 对海量小文件的训练加速uid+JindoFS 对 OSS 上数据进行训练加速讲师:辰山,阿里巴巴计算平台事业部 EMR 技术专家内容框架:海量小文件难题Fluid JindoRuntime 小文件优化使用 JindoRuntime 加速小文件演示直播回放链接:(18讲)https://developer.aliyun.....

数据湖实操讲解【 AI 训练加速】第十八讲:Fluid + JindoFS 对海量小文件的训练加速
文章 2021-07-14 来自:开发者社区

数据湖实操讲解【 AI 训练加速】第十七讲:Fluid + JindoFS 对 HDFS 上的数据进行训练加速

本期导读 :【AI 训练加速】第十七讲主题:FFluid + JindoFS 对 HDFS 上的数据进行训练加速luid+JindoFS 对 OSS 上数据进行训练加速讲师:辰山,阿里巴巴计算平台事业部 EMR 技术专家内容框架:什么是 Fluid + JindoFS (JindoRuntime)为什么使用 JindoRuntime 加速 HDFS 如何使用 JindoRuntime 演示直播回....

数据湖实操讲解【 AI 训练加速】第十七讲:Fluid + JindoFS 对 HDFS 上的数据进行训练加速
文章 2021-07-07 来自:开发者社区

数据湖实操讲解【AI 训练加速】第十六讲:Fluid + JindoFS 对 OSS 上数据进行训练加速

本期导读 :【AI 训练加速】第十六讲主题:FFluid + JindoFS 对 OSS 上数据进行训练加速luid+JindoFS 对 OSS 上数据进行训练加速讲师:扬礼,阿里巴巴计算平台事业部 开源大数据平台 开发工程师内容框架:Fluid 介绍Fluid JindoRuntime使用Fluid JindoRuntime 加速 OSS训练演示直播回放链接:(16讲)https://deve....

数据湖实操讲解【AI 训练加速】第十六讲:Fluid + JindoFS 对 OSS 上数据进行训练加速

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

{"cardStyle":"productCardStyle","productCode":"aliyun","productCardInfo":{"productTitle":"阿里云 AI","productDescription":"从 AI 应用构建,模型部署到训练,一站式了解阿里云经典的 AI 应用场景和解决方案。","productContentLink":"https://www.aliyun.com/solution/tech-solution/ai","isDisplayProductIcon":true,"productButton1":{"productButtonText":"查看详情","productButtonLink":"https://www.aliyun.com/solution/tech-solution/ai"},"productButton2":{"productButtonText":"联系 AI 专家","productButtonLink":"https://page.aliyun.com/form/act933288178/index.htm?spm=5176.29311086.J_RY_4Q8--sru4dMV7o3lqS.2.22ec5297YL7w86"},"productButton3":{"productButtonText":"立即体验","productButtonLink":"https://bailian.console.aliyun.com/?spm=5176.28326591.0.0.56136ee1bpor89#/efm/model_experience_center"},"productPromotionInfoBlock":[{"$id":"0","productPromotionGroupingTitle":"热门体验","productPromotionInfoFirstText":"文生文应用","productPromotionInfoFirstLink":"https://bailian.console.aliyun.com/?spm=5176.29311086.J__xR9sQs7AmaTHLBTgN3VS.1.22ec52978mJi5p#/home","productPromotionInfoSecondText":"文生图应用","productPromotionInfoSecondLink":"https://bailian.console.aliyun.com/?spm=5176.29311086.J__xR9sQs7AmaTHLBTgN3VS.2.22ec52978mJi5p#/efm/model_experience_center?modelId=wanx-v1"},{"$id":"1","productPromotionGroupingTitle":"热门产品","productPromotionInfoFirstText":"大模型服务平台百炼","productPromotionInfoFirstLink":"https://www.aliyun.com/product/bailian","productPromotionInfoSecondText":"人工智能平台 PAI","productPromotionInfoSecondLink":"https://www.aliyun.com/product/bigdata/learn"},{"$id":"2","productPromotionGroupingTitle":"技术解决方案","productPromotionInfoFirstText":"向量检索与通义千问搭建专属问答服务","productPromotionInfoFirstLink":"https://www.aliyun.com/solution/tech-solution/dashvector","productPromotionInfoSecondText":"创意加速器:AI 绘画创作","productPromotionInfoSecondLink":"https://www.aliyun.com/solution/tech-solution/tongyi-wanxiang"},{"$id":"3","productPromotionGroupingTitle":"热门模型","productPromotionInfoFirstText":"通义千问","productPromotionInfoFirstLink":"https://tongyi.aliyun.com","productPromotionInfoSecondText":"通义万相","productPromotionInfoSecondLink":"https://tongyi.aliyun.com/wanxiang"}],"isOfficialLogo":false},"activityCardInfo":{"activityTitle":"","activityDescription":"","cardContentBackgroundMode":"LightMode","activityContentBackgroundImageLink":"","activityCardBottomInfoSelect":"activityPromotionInfoBlock","activityPromotionInfoBlock":[]}}

人工智能平台PAI

人工智能平台 PAI(Platform for AI,原机器学习平台PAI)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。

+关注