BertLarge分布式训练(流水并行)

通过为模型并行和数据并行,搭配流水并行辅助并行策略,优化通信拓扑结构,以解决BertLarge分布式训练性能较差的问题。在Whale中,您可以通过模型划分、资源划分及映射三个步骤,实现大规模数据及模型的分布式训练。背景信息 受益于深度...

训练数据分片

Whale根据分布式模式和用户配置的资源,自动对训练数据进行分片。如果训练数据无法均分,您可以通过环境变量配置数据分片策略。本文介绍Whale支持的数据分片策略、数据分片策略的参数列表及数据分片策略的配置方法。数据分片策略 ...

大规模分类的分布式训练(算子拆分)

通过结合算子拆分和数据并行,优化通信拓扑结构,以解决大规模分类任务无法单机训练或分布式训练性能较差的问题。在Whale中,您可以通过模型划分、资源划分及映射三个步骤,实现大规模分类任务的Fusion模式。背景信息 分类问题是机器学习、...

预训练模型使用教程

NLP自学习平台提供了一些预训练的特定领域模型服务。例如:商品评价解析服务、新闻层次分类服务、中文简历抽取、英文简历抽取。服务开通与资源包购买预训练模型使用前,需要确认是否已经开通了:自然语言处理和NLP自学习平台服务。...

预训练模型使用教程

NLP自学习平台提供了一些预训练的特定领域模型服务。例如:商品评价解析服务、新闻层次分类服务、中文简历抽取、英文简历抽取等。服务开通与资源包购买预训练模型使用前,需要确认是否已经开通了:自然语言处理和NLP自学习平台服务。...

使用FastGPU一键部署并训练应用

在开发者实验室中,阿里云为您提供了FastGPU训练场景的相关实验教程,您可以通过教程提供的真实环境,体验并完成所需教程的学习和实验。目前,阿里云为您提供了FastGPU在如下三个训练场景中的应用实验。如需体验,请前往开发者实验室。使用...

模型训练

完成了数据集的构建,就可以开始模型的训练了。...进入创建模型后,通过自学习平台,您无需关心任何模型的实现细节,只要选择相应的模型就可以开始训练(当前只有一种默认模型可选,后续可能增加)。首先请填入模型的名称。...

弹性训练

弹性模型训练通过对接Horovod的Elastic模式,可以让Horovod运行的分布式训练任务具备动态调整训练Workers数量的能力。您可以通过实时的弹性模型训练,并结合抢占实例,充分利用空闲的算力资源,以降低单位时间的训练成本。...

模型训练

如果您希望很快看到结果,可以先尝试用一小部分数据进行训练,把所有流程跑后,再用全量数据进行训练。模型评估对于分类模型的评估我们提供了精确率(Precision),召回率(Recall),F1 值。这三个值得取自范围都在 0~1 之间。简单来说,这...

模型训练

完成了数据集的构建,就可以开始模型的训练了。...进入创建模型后,通过自学习平台,您无需关心任何模型的实现细节,只要选择相应的模型就可以开始训练。首先请填入模型的名称。在模型类型处,您可以选择中文实体抽取或是英文实体抽取服务。...

配置训练数据和代码

本文介绍如何在AI开发控制台配置训练用的数据集和代码。前提条件 创建ACK Pro版集群。ACK Pro版集群已安装云原生AI套件的开发控制台和调度组件,且集群Kubernetes版本不低于1.20。...具体操作,请参见步骤一:为目标用户分配和关联配额组。...

评分卡训练

评分卡是信用风险评估领域常用的建模工具,其原理是通过分箱输入将原始变量离散化后再使用线性模型(逻辑回归或线性回归等)进行模型训练,其中包含特征选择及分数转换等功能。同时也支持在训练过程中为变量添加约束条件。...

机器人训练

机器人训练(AIBoost)是一个辅助人工智能训练师,进行智能产品数据挖掘、知识优化的智能训练工具平台。数据闭环: 充分利用真实的线上反馈数据进行智能训练及评测,优化效果真实可靠、可感知。智能辅助处理:通过数据清洗、聚类、推荐等...

PyTorch单机训练

本文展示如何使用Arena提交PyTorch的单机训练作业,并通过TensorBoard可视化查看训练作业。前提条件 创建包含GPU的Kubernetes集群。集群节点可以访问公网。安装Arena。已给集群配置了Arena使用的PVC,并且PVC已填充本文使用的数据集,详情...

TensorFlow单机训练

本文展示如何使用Arena提交TensorFlow的单机训练作业,并通过TensorBoard可视化查看训练作业。前提条件 创建包含GPU的Kubernetes集群。集群节点可以访问公网。安装Arena。已给集群配置了Arena使用的PVC,并且PVC已填充本文使用的数据集,...

分布式训练框架StarServer

本文为您介绍如何使用分布式训练框架StarServer进行分布式训练。StarServer不仅将原生TensorFlow中的Send/Recv语义修改为Pull/Push语义,而且实现了图执行过程中的Lock-Free,大幅度提高了并发执行子图效率。PAI-TF支持更大的训练规模和...

提交Tensorflow训练任务和定时任务

本文介绍如何在AI开发控制台提交一个Tensorflow训练任务和定时任务。前提条件 创建ACK Pro版集群。ACK Pro版集群已安装云原生AI套件的开发控制台和调度组件,且集群Kubernetes版本不低于1.20。...具体操作,请参见步骤一:为目标用户分配和...

Step 4:模型训练

开始模型训练完成一定的数据标注工作后,我们有了样本数据量的支撑就可以进行模型的训练了。可以先不新建模型,而直接从想使用的数据集发起训练。在训练前可以勾选本次训练的目标标签,未选中的标签将不参与本次训练。...

ACK集群实现GPU AI模型训练

本文介绍GPU AI模型训练的场景描述、解决问题、架构图及操作参考链接。场景描述 本方案适用于AI图片训练场景,使用CPFS和NAS作为共享存储,利用容器服务Kubernetes版管理GPU云服务器集群进行图片AI训练。解决问题 搭建AI图片训练基础环境。...

GPU AI模型训练最佳实践

本方案适用于AI图片训练场景,使用CPFS/NAS作为共享存储,利用容器服务Kubernetes版管理GPU云服务器集群进行图片AI训练。实现的方式 搭建AI图片训练基础环境。使用CPFS存储训练数据。使用飞天AI加速训练服务加速训练。...

PyTorch分布式训练

本文展示如何使用Arena提交PyTorch的分布式训练作业,并通过TensorBoard可视化查看训练作业。前提条件 创建包含GPU的Kubernetes集群。集群节点可以访问公网。安装Arena。已给集群配置了Arena使用的PVC,并且PVC已填充本文使用的数据集,...

TensorFlow分布式训练

本文展示如何使用Arena提交TensorFlow基于PS-Worker模式的分布式训练作业,并通过TensorBoard可视化查看训练作业。前提条件 创建包含GPU的Kubernetes集群。集群节点可以访问公网。安装Arena。已给集群配置了Arena使用的PVC,并且PVC已填充...

Pytorch分布式训练使用GPU拓扑感知调度

ACK基于Scheduling Framework机制,实现GPU拓扑感知调度,即在节点的GPU组合中选择具有最优训练速度的组合。本文主要介绍如何使用GPU拓扑感知调度来提升Pytorch分布式训练的训练速度。前提条件 创建ACK Pro版集群。安装Arena。...

Tensorflow分布式训练使用GPU拓扑感知调度

ACK基于Scheduling Framework机制,实现GPU拓扑感知调度,即在节点的GPU组合中选择具有最优训练速度的组合。本文主要介绍如何使用GPU拓扑感知调度来提升Tensorflow分布式训练的训练速度。前提条件 创建ACK Pro版集群。...

EasyASR语音分类训练

本示例通过输入桩配置EasyASR语音分类训练算法组件的输入,即构建如下实验。首次训练语音分类模型时,您需要填写模型配置文件的路径、模型Checkpoint保存OSS路径、音频分类模型类别集合及音频特征维度,并且将是否为Fine-tune设置为否。...

EasyASR语音识别训练

本示例通过输入桩配置EasyASR语音识别训练算法组件的输入,即构建如下实验。选择对应的预训练模型后,建议将模型的配置文件和词汇表存储在您的OSS中。首次训练语音识别模型时,您需要填写模型配置文件的路径、模型Checkpoint保存OSS路径、...

模型代码适配AIACC-Training(AIACC训练加速)

如需实现模型并行,要求模型代码可以通过AIACC-Training(AIACC训练加速)提供的通信接口适配,已有支持案例包括InsightFace模型并行、Megatron-LM自动模型并行+数据并行等。使用AIACC-Training(AIACC训练加速)进行加速训练时,要求最小...

PAI图像检测训练

PAI-EasyVision提供图像检测模型的训练及预测功能,本文为您介绍如何通过PAI命令进行图像检测模型训练。PAI-EasyVision对配置进行了简化,您通过-Dparam_config即可配置常用参数,无需了解PAI-EasyVision的配置文件规则和逻辑。...

FastGPU构建一键训练任务

FastGPU是一套阿里云推出的人工智能计算任务构建工具,提供便捷的接口和命令行,供您在阿里云IaaS资源上构建人工智能计算任务。本文以Ubuntu 18.04 64位为例介绍如何安装和使用FastGPU,并列出了FastGPU支持的运行时接口和命令行。...

使用AIACC-Training(AIACC训练加速)加速BERT ...

本方案适用于自然语言训练场景,使用GPU云服务器和极速型NAS进行BERT Finetune模型训练,使用AIACC-Training(AIACC训练加速)可以有效提升多机多卡的训练效率。实现的方式 使用GPU云服务器搭建训练环境。使用极速型NAS存储共享训练数据。...

JindoFS加速ResNet50模型训练

如果你希望使用我们提供的数据集重现这个实验,请在社区开Issue申请数据集下载。更多信息,请参见Fluid。本文以阿里云的V100四机八卡为例,说明如何用Fluid部署阿里云OSS云端ImageNet数据集到K8s集群。使用以下YAML文件样例创建一个名为...

PAI图像语义分割训练

PAI-EasyVision提供图像语义分割模型的训练及预测功能,本文为您介绍如何通过PAI命令进行图像语义分割模型训练。图像语义分割训练 图像分割组件实现了基于DeepLab-V3的语义分割模型,详情请参见Encoder-Decoder with Atrous Separable ...

手动安装AIACC-Training(AIACC训练加速)

AIACC-Training(AIACC训练加速)支持优化基于AI主流计算框架(包括TensorFlow、PyTorch、MXNet和Caffe)搭建的模型,可以显著提升训练性能。本文介绍针对TensorFlow、PyTorch、MXNet框架手动安装AIACC-Training(AIACC训练加速)的步骤。...

自动安装AIACC-Training(AIACC训练加速)

AIACC-Training(AIACC训练加速)支持优化基于AI主流计算框架(包括TensorFlow、PyTorch、MxNet和Caffe)搭建的模型,能显著提升训练性能。本文介绍如何自动安装AIACC-Training(AIACC训练加速)并测试demo。背景信息 ...

自动安装AIACC-Training(AIACC训练加速)

AIACC-Training(AIACC训练加速)支持优化基于AI主流计算框架(包括TensorFlow、PyTorch、MxNet和Caffe)搭建的模型,能显著提升训练性能。本文介绍如何自动安装AIACC-Training(AIACC训练加速)并测试demo。背景信息 ...

PAI端到端文字识别训练

PAI-EasyVision提供端到端文字识别模型的训练及预测功能,本文为您介绍如何通过PAI命令进行端到端文字识别模型训练。PAI-EasyVision对配置进行了简化,您通过-Dparam_config即可配置常用参数,无需了解PAI-EasyVision的配置文件规则和逻辑...

使用FastGPU进行极速AI训练

本教程利用FastGPU工具一键构建阿里云上的AI训练环境,并使用AIACC加速工具进行加速。场景描述 目前,FastGPU为您提供以下三个训练场景demo,您可以根据需要前往GitHub下载。GTC-demo:PyTorch手势识别训练。InsightFace:MxNet人脸识别...

使用Arena运行深度学习训练作业

集成训练数据管理,实验任务管理,模型开发,持续训练、评估、上线预测等全流程的深度学习生产流水线。在本教程中我们将使用Arena完成以下任务: 下载并准备数据。利用Arena提交单机训练任务,并且查看训练任务状态和日志,并通过...

使用NLP模型压缩镜像训练模型

使用半角冒号(:)将公网地址与模型最终部署的平台类型(GPU或CPU)进行拼接,即镜像地址。例如,公网地址为registry.cn-hangzhou.aliyuncs.com/pai-compression/nlp,最终的优化模型部署在GPU平台,则镜像地址为registry....

使用EasyCompression进行模型压缩训练

EasyCompression是PAI推出的面向TensorFlow模型的压缩建模训练工具库,实现了剪枝、量化及结构化稀疏等压缩训练算法,旨在帮助深度学习领域开发者方便快捷地完成模型压缩训练。本文介绍如何使用EasyCompression进行剪枝、量化及结构化稀疏...
< 1 2 3 4 ... 114 >
跳转至: GO

新品推荐

你可能感兴趣

热门推荐

新人福利专场 阿里云试用中心 企业支持计划 飞天会员助力企业低成本上云 智能财税30天免费试用 云解析DNS新用户首购低至36元/年起 ECS限时升级特惠6.5折