LLM on DLC-Megatron on DLC最佳实践

常见的大模型训练技术包括:数据并行技术、模型并行技术(包括张量并行技术和流水并行技术)、优化状态并行技术、序列并行技术、激活重算技术等:数据并行技术(Data Parallel):在多个GPU组上有相同的模型参数副本,但读取不同的样本。...

CREATE FUNCTION

IMMUTABLE/STABLE/VOLATILE 这些属性将函数的行为通知给查询优化;您只能指定一个选项。VOLATILE 是默认行为。IMMUTABLE 指示函数不能修改数据库,并在提供相同参数值时始终会得到相同结果;它不执行数据库查找,也不以其他方式使用其...

创建GPU函数

如果您需要使用流行AI项目,如Stable Diffusion WebUI、ComfyUI、RAG、TensorRT等底层需要使用GPU实例来加速计算的应用,推荐以镜像方式部署函数应用。将容器镜像作为函数的交付物,提升开发和交付效率。创建函数 登录 函数计算控制台,在...

验证分析型查询请求能力

将 orders 表与自身聚合,生成 20,000*20,000 行数据的笛卡尔积,开启 8 个并行执行,对比执行时间,验证数据库 OceanBase 的实时分析能力。概念介绍 OLAP(Online Analytical Processing)是一种面向分析的、多维数据分析技术。它适用于...

常用操作导航

GPU实例作为云服务器ECS的一类实例规格,保持了与ECS实例相同的操作方式。在使用云服务器ECS时,您可能会遇到各种问题,例如远程连接、更换操作系统、扩容盘、升高或降低实例配置、使用快照或镜像等。本文介绍了云服务器ECS的常用操作,...

使用限制

GPU实例作为云服务器ECS的一类实例规格,保持了与ECS实例相同的使用限制。本文介绍云服务器ECS在产品功能和服务性能上的不同限制,以及如何申请更高配额。限制概述 使用云服务器ECS有以下限制:仅弹性裸金属服务器和超级计算集群支持二次...

已停售的GPU实例规格

2.5 GHz主频的Intel ® Xeon ® Platinum 8163(Skylake),计算性能稳定 存储:I/O优化实例 仅支持ESSD盘、ESSD AutoPL盘、SSD盘和高效盘 支持高性能并行文件系统CPFS 网络:支持IPv6 支持专有网络VPC 支持RoCE V2网络,用于低...

异构服务型

云服务器ECS异构服务型实例video-trans适用于视频转码、图像与视频内容处理以及帧图像提取等场景。通过本文您可以具体了解该实例的特点以及包含的实例规格和指标数据等。video-trans特点 提供专属硬件资源和物理隔离 高密度转码,例如显示...

连接方式概述

GPU实例作为云服务器ECS的一类实例规格,保持了与ECS实例相同的连接方式。ECS支持通过多种方式连接实例,包括阿里提供的连接工具(例如Workbench、VNC等)和第三方客户端工具。您可以综合考虑目标实例的操作系统、本地设备的操作系统、...

什么是AI通信加速库DeepNCCL

DeepNCCL是为阿里神龙异构产品开发的一种用于多GPU互联的AI通信...相关文档 针对分布式训练或者多卡推理中的AI通信场景,在不同的GPU云服务器上安装DeepNCCL通信库,可以加速分布式训练或推理性能。具体操作,请参见 安装并使用Deepnccl。

使用VNC登录实例

无法使用Workbench和第三方远程连接工具(例如PuTTY、Xshell、SecureCRT等)连接实例时,您可以通过VNC远程连接方式登录实例,查看云服务器ECS操作界面的实时状态。重要 自2023年7月10日起,远程连接工具VNC无需单独设置VNC登录密码,即可...

GPU计算型实例中手动安装Tesla驱动(Windows)

在深度学习、AI等通用计算业务场景下,安装了Tesla驱动的GPU才能发挥高性能计算能力。Windows系统GPU计算型实例不支持在创建实例时自动安装Tesla驱动,您只能参考本文操作手动安装Tesla驱动。操作步骤 说明 本文适用于所有Windows系统GPU...

超级计算集群概述

SCC与阿里ECS、GPU云服务器等计算类产品一起,为 阿里弹性高性能计算平台E-HPC 提供了极高性能的并行计算资源,实现真正的上超算。高性能计算优化型包含以下规格族:通用型超级计算集群实例规格族sccg7 计算型超级计算集群实例规格族...

使用FastGPU一键部署并训练应用

在开发者实验室中,阿里为您提供了使用FastGPU进行一键部署并训练应用的相关实验教程,例如针对图像分类应用、bert-perseus应用以及手势识别应用的教程。该教程基于 Cloud Shell提供的真实环境,您可以通过在线Web IDE(Cloud Shell内置...

NLB健康检查

集群内不同服务器分别独立、并行地根据负载均衡策略进行数据转发和健康检查操作。如果NLB对某一台后端服务器健康检查失败,且服务器组未开启连接优雅中断,异常的后端服务器会处理完存量的连接会话后,关闭连接。此时,新的客户端请求不会...

CLB健康检查工作原理

四层集群内不同服务器分别独立、并行地根据负载均衡策略进行数据转发和健康检查操作。如果某一台四层集群中的服务器对某一台后端服务器健康检查失败,则该四层集群中的服务器将不会再将新的客户端请求分发给相应的异常的后端服务器。四层...

安装和使用Deepytorch Training

Deepytorch Training是阿里自研的AI加速,面向传统AI和生成式AI场景,在模型训练过程中,可提供显著的训练加速能力。本文主要介绍安装并使用Deepytorch Training的操作方法。说明 关于Deepytorch Training的更多信息,请参见 什么是...

Serverless GPU概述

Serverless GPU是一种新兴的计算GPU服务,它采用了服务器无感知计算的理念,通过提供一种按需分配的GPU计算资源,有效地解决原有GPU长驻使用方式导致的低资源利用率、高使用成本和低弹性能力等痛点问题。本文介绍Serverless GPU的详细...

Serverless GPU概述

Serverless GPU是一种新兴的计算GPU服务,它采用了服务器无感知计算的理念,通过提供一种按需分配的GPU计算资源,有效地解决原有GPU长驻使用方式导致的低资源利用率、高使用成本和低弹性能力等痛点问题。本文介绍Serverless GPU的详细...

使用限制

FPGA实例作为云服务器ECS的一类实例规格,保持了与ECS实例相同的使用限制。本文介绍云服务器ECS在产品功能和服务性能上的不同限制,以及如何申请更高配额。限制概述 使用云服务器ECS有以下限制:仅弹性裸金属服务器和超级计算集群支持二次...

什么是AI分布式训练通信优化库AIACC-ACSpeed

上图中,GPU0~GPU3或者GPU4~GPU7的各卡之间相互通过PCIe Bridge连接(PIX),而GPU0到GPU4~GPU7、GPU1到GPU4~GPU7、GPU2到GPU4~GPU7、GPU3到GPU4~GPU7之间需要通过socket之间的QPI/UPI接口连接(SYS)。优化方法 在原生NCCL通信库中,默认...

安装并使用DeepGPU-LLM

在处理大语言模型任务中,您可以根据实际业务部署情况,选择在不同环境(例如GPU云服务器环境或Docker环境)下安装推理引擎DeepGPU-LLM,然后通过使用DeepGPU-LLM工具实现大语言模型(例如Llama模型、ChatGLM模型、百川Baichuan模型或通义...

什么是计算优化编译器AIACC-AGSpeed

AIACC-AGSpeed(AIACC 2.0-AIACC Graph Speeding)是阿里推出的一个基于PyTorch深度学习框架研发的计算优化编译,用于优化PyTorch深度学习模型在阿里云GPU异构计算实例上的计算性能,相比原始的神龙AI加速引擎AIACC,AIACC-AGSpeed是...

AIACC-ACSpeed体验示例

AIACC-ACSpeed(简称ACSpeed)作为阿里自研的AI训练加速,在提高训练效率的同时能够降低使用成本,可以实现无感的分布式通信性能优化。ACSpeed软件包中已为您提供了适配DDP的示例代码,您可以参考本文快速体验使用ACSpeed进行模型分布...

GPU计算型(gn/ebm/scc系列)

本文为您介绍云服务器ECS GPU计算型实例规格族的特点,并列出了具体的实例规格。背景信息 在阅读各个实例规格族的特点及详细指标之前,您需要提前学习以下信息:了解实例规格命名及分类:帮助您更好地理解实例规格族的命名及分类信息,了解...

使用Megatron-Deepspeed训练GPT-2并生成文本

本文介绍如何使用GPU云服务器,使用Megatron-DeepSpeed框架训练GPT-2模型并生成文本。背景信息 GPT-2模型是OpenAI于2018年在GPT模型的基础上发布的新的无监督NLP模型,当时被称为“史上最强通用NLP模型”。该模型可以生成连贯的文本段落,...

桌面服务器迁移至无影电脑

SMC支持将您的基于物理机、本地虚拟机(VMware、Xen、KVM、Hyper-V等)、其他厂商(AWS、Azure、Google Cloud、腾讯等)桌面系统迁移到阿里无影电脑,通过使用无影为您提供易用、安全、高效的上桌面服务,帮助您快速构建、高效...

安装和使用AIACC-AGSpeed

AIACC-AGSpeed(简称AGSpeed)专注于优化PyTorch深度学习模型在阿里云GPU异构计算实例上的计算性能,相比原始的神龙AI加速引擎AIACC,可以实现无感的计算优化性能。本文为您介绍安装和使用AGSpeed的方法。前提条件 已创建阿里云GPU实例,且...

安装和使用Deepytorch Inference

Deepytorch Inference是阿里自研的AI推理加速,针对Torch模型,可提供显著的推理加速能力。本文主要介绍安装并使用Deepytorch Inference的操作方法,以及推理效果展示。背景信息 Deepytorch Inference通过调用 deepytorch_inference....

使用MPS实现GPU共享调度和显存隔离

添加GPU节点时,您需要将实例规格架构设置为 GPU云服务器。具体操作,请参见 添加已有节点 或 创建节点池。节点标签 单击 节点标签 的,设置 键 为ack.node.gpu.schedule,值 为mps。重要 每个GPU节点只有打上标签 ack.node.gpu.schedule=...

图像度量学习训练(raw)

前提条件 已开通OSS并完成授权,详情请参见 开通OSS服务 和 产品依赖与授权:Designer。功能限制 支持的计算引擎为DLC。算法简介 图像度量学习训练(raw)组件提供了resnet50、resnet18、resnet34、resnet101、swint_tiny、swint_small、...

支持的云服务

什么是弹性伸缩ESS 助手 助手是专为云服务器ECS打造的原生自动化运维工具,通过免密码、免登录、无需使用跳板机的形式,在ECS实例上实现批量运维、执行命令(Shell、PowerShell和Bat等)和发送文件等操作。典型的使用场景包括:安装卸...

产品优势

对比项 弹性容器实例 云服务器ECS 弹性裸金属服务器 成本 只为Pod付费,节约成本。为ECS整体付费。为裸金属服务器整体付费。运维 无需管理节点,运维简单,成本低。需要自行管理节点,运维ECS。需要自行管理节点,运维裸金属服务器。性能 ...

常见GPU故障类型与解决方案

在ACK集群中,尤其在执行深度学习、科学计算或任何高性能并行计算任务时,GPU硬件故障会对依赖GPU资源的应用产生重大的影响。XID错误表明的硬件故障 故障描述 以下列举一些较为常见的XID的错误以及其错误原因。关于XID的更多信息,请参见 ...

弹性裸金属服务器规格

弹性裸金属服务器开创了一种新型的云服务器形式,它能与阿里产品家族中的其他产品(例如存储、网络、数据库等)无缝对接,并完全兼容ECS云服务器实例的镜像系统,从而可更多元化地结合您的业务场景进行资源构建。使用弹性裸金属服务器时...

已停售的实例规格

本地SSD型弹性裸金属服务器实例规格族ebmi2g ebmi2g的特点如下:提供专属硬件资源和物理隔离 计算:处理与内存配比为1:4 处理:2.5 GHz主频的Intel ® Xeon ® Platinum 8163(Skylake),全核睿频2.7 GHz 存储:I/O优化实例 仅支持...

实例规格选型指导

本文主要介绍如何结合实际业务场景选购阿里云云服务器ECS。了解实例规格族 在进行规格选型之前,您需要提前了解以下信息:实例规格分类与命名:帮助您更好地理解实例规格族的命名及分类信息。实例规格族:了解在售实例规格族的详细信息。...

基础设施安全

云服务器ECS基础设施主要包括物理主机安全、硬件安全、虚拟化安全。ECS针对主机安全提供基础安全服务,包括异常登录检测、漏洞扫描、基线配置核查等,帮助您及时发现相关安全隐患。物理主机安全 阿里数据中心建设满足GB 50174《电子信息...

软件概述

E-HPC提供了业界主流的科学计算应用、编译运行时库、MPI通信库等软件,本文介绍E-HPC支持的软件,以及相关软件的应用场景等。E-HPC软件栈 本文列出支持自动部署的软件,您也可以通过自定义镜像的方式自行部署其他需要的软件。软件列表 ...

在七代安全增强型实例中部署PyTorch深度学习模型

该模型通常被部署于云服务供应商提供的云服务器如阿里ECS。如何确保这些部署于公有上的模型不被他人窃取,确保可用不可见,是模型所有者和云服务提供商共同面临的话题。阿里ECS部分安全增强型实例基于Intel ® SGX(Software Guard ...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
GPU云服务器 轻量应用服务器 云服务器 ECS 阿里邮箱 人工智能平台 PAI 弹性公网IP
新人特惠 爆款特惠 最新活动 免费试用