ACCL:阿里云自研高性能集合通信库
ACCL(Alibaba Collective Communication Library)是阿里云自研的,基于NCCL(Nvidia Collective Communication Library)开发的集合通信库。它结合阿里云自身网络特点以及丰富的大模型任务通信调优经验,可为客户任务提供更高的通信性能,并且具备一定的故障诊断和自愈能力。本文为您介绍ACCL的主要特性和安装方法。
阿里云PAI获得的安全合规资质
为了确保用户在使用PAI(平台名称)时的数据安全和合规性,我们专注于获取并维持最高标准的安全合规资质。本文档详细介绍了PAI所获得的安全合规资质,并解释了这些资质对您的业务和数据保护的具体意义。
阿里云PAI的数据安全加固
数据传输安全PAI支持使用Python官方SDK或自行实现调用逻辑的方式对服务进行VPC高速直连调用,以实现模型部署服务的安全访问。通过VPC的网络隔离能力,实现数据的传输安全。同时,EAS支持HTTPS加密传输,访问服务时,将访问地址中的http替换成https即可,无需其他配置。httphttp...
阿里云PAI的基础设施安全
可用区间故障隔离可用区是指在同一地域内,电力和网络互相独立的物理区域。在同一地域内,可用区与可用区之间内网互通。各可用区之间可以实现故障隔离,即如果一个可用区出现故障,不会影响其他可用区的正常运行。每个地域完全独立,不同地域的可用区完全隔离,但同一个地域内的可用区之间使用低时延链路相连。弹性自动容错...
阿里云PAI支持的监控与日志能力
健康状态监控建议实时了解云资源的健康状态,方便在有任何异常的情况下,您能及时采取相应的处理。关于健康状态的详细信息,请参见阿里云健康状态首页。阿里云健康状态首页在阿里云健康状态页面中,您可以实时查看阿里云每个地域下云服务的状态是否有异常,以及该服务异常状态的RSS订阅方式。阿里云健康状态基础云监控P...
阿里云发布异构计算平台,只是为了人工智能吗?
大约三个月前,一个朋友找到我,托我找找认识的渠道采购上万片AMD显卡。我询了一圈总代,得到的答复竟然是高性能AMD显卡全国断货!众所周知,GPU是人工智能AI服务器的核心组件,因为深度学习、推理所需要的复杂计算,可以充分发挥GPU上千个计算单元并行计算的能力,降低成本、提高效率。或许,是人工智能大热,导致高性能显卡全国断货?实际上,2017年7月,国务院印发《新一代人工智能发展规划》,人工智能从....
阿里云异构计算全新升级 全方位使能人工智能产业
随着人工智能的兴起,GPU 借助深度学习,走上了历史的舞台,活跃在各个领域。FPGA 也借着这股浪潮,慢慢地走向数据中心,走向人工智能,发挥着它的优势。 “人工智能浪潮催生的计算迭代需求远超摩尔定律,阿里云希望为人工智能产业提供最强的计算能力,我们开放了视频识别、语音识别、图像识别等人工智能服务及ET工业大脑、医疗大脑场景解决方案,今天我们推出的异构计算加速平台,将进一步完善人工智能产业生态,满....
本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。