阿里云文档 2024-10-28

ACCL:阿里云自研高性能集合通信库

ACCL(Alibaba Collective Communication Library)是阿里云自研的,基于NCCL(Nvidia Collective Communication Library)开发的集合通信库。它结合阿里云自身网络特点以及丰富的大模型任务通信调优经验,可为客户任务提供更高的通信性能,并且具备一定的故障诊断和自愈能力。本文为您介绍ACCL的主要特性和安装方法。

阿里云文档 2024-08-28

阿里云PAI获得的安全合规资质

为了确保用户在使用PAI(平台名称)时的数据安全和合规性,我们专注于获取并维持最高标准的安全合规资质。本文档详细介绍了PAI所获得的安全合规资质,并解释了这些资质对您的业务和数据保护的具体意义。

阿里云文档 2024-02-29

阿里云PAI的数据安全加固

数据传输安全PAI支持使用Python官方SDK或自行实现调用逻辑的方式对服务进行VPC高速直连调用,以实现模型部署服务的安全访问。通过VPC的网络隔离能力,实现数据的传输安全。同时,EAS支持HTTPS加密传输,访问服务时,将访问地址中的http替换成https即可,无需其他配置。httphttp...

阿里云文档 2024-02-08

阿里云PAI的基础设施安全

可用区间故障隔离可用区是指在同一地域内,电力和网络互相独立的物理区域。在同一地域内,可用区与可用区之间内网互通。各可用区之间可以实现故障隔离,即如果一个可用区出现故障,不会影响其他可用区的正常运行。每个地域完全独立,不同地域的可用区完全隔离,但同一个地域内的可用区之间使用低时延链路相连。弹性自动容错...

阿里云文档 2024-02-06

阿里云PAI支持的监控与日志能力

健康状态监控建议实时了解云资源的健康状态,方便在有任何异常的情况下,您能及时采取相应的处理。关于健康状态的详细信息,请参见阿里云健康状态首页。阿里云健康状态首页在阿里云健康状态页面中,您可以实时查看阿里云每个地域下云服务的状态是否有异常,以及该服务异常状态的RSS订阅方式。阿里云健康状态基础云监控P...

文章 2022-02-17 来自:开发者社区

用尽每一寸GPU,阿里云cGPU容器技术帮助人工智能提效降本

人工智能已经深入影响各行各业,作为人工智能实现的主流实现路径,深度学习对算力的需求庞大且波动,上云已成主流趋势。 GPU是人工智能算力的重要来源。互联网及传统企业客户,只要有人工智能相关的业务,都需要租用GPU云服务器来做深度学习模型的训练与推理。 随着显卡技术的不断发展和半导体制程工艺的进步,单张GPU卡算力水涨船高,成本愈发高昂。然而,有许多的深度学习任务,并不需要占用一整张GPU卡。资源调....

用尽每一寸GPU,阿里云cGPU容器技术帮助人工智能提效降本
文章 2022-02-17 来自:开发者社区

提高GPU利用率,阿里云cGPU容器技术助力人工智能提效降本

发布会传送门 产品详情 人工智能已经深入影响各行各业,作为人工智能实现的主流实现路径,深度学习对算力的需求庞大且波动,上云已成主流趋势。 GPU是人工智能算力的重要来源。互联网及传统企业客户,只要有人工智能相关的业务,都需要租用GPU云服务器来做深度学习模型的训练与推理。 随着显卡技术的不断发展和半导体制程工艺的进步,单张GPU卡算力水涨船高,成本愈发高昂。然而,有许多的深度学习任务,并不需要占....

提高GPU利用率,阿里云cGPU容器技术助力人工智能提效降本

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐