通过控制台使用AI Profiling
LLM的普及推动了对AI训练与推理的精细化性能检测与调优需求,众多在GPU节点上运行的业务,期望对GPU容器进行在线性能分析。AI Profiling作为基于eBPF和动态进程注入的无侵入式性能分析工具,原生面向Kubernetes容器场景提供,支持对运行GPU任务的容器进程进行在线检测,涵盖多方面的数据采集能力,可以在正在运行的GPU任务上动态启停性能数据采集。而对线上业务来说,可动态挂卸载的P...
在ACK中实现AI内容安全合规审查
在ACK上运行生成式AI服务时,为实现内容合规性审查,可利用Gateway API推理扩展配置ACKTrafficFilter插件对接阿里云内容安全审核服务,从而在网关层自动拦截不当内容,满足相关监管和法规要求。
基于生成式AI请求的Token数进行全局限流
Gateway with Inference Extension支持对生成式AI请求实施精细化的限流策略。通过对每个请求中输入和输出的Token数进行统计,然后按照预设的限流规则对请求进行放行或拒绝。本文档介绍如何使用Gateway with Inference Extension对生成式AI请求实施基于Token数的全局限流策略。
AMD Ryzen AI Max+ 395四机并联:大语言模型集群推理深度测试
本文介绍使用四块Framework主板构建AI推理集群的完整过程,并对其在大语言模型推理任务中的性能表现进行了系统性评估。该集群基于AMD Ryzen AI Max+ 395处理器,采用mini ITX规格设计,可部署在10英寸标准机架中。 Jeff Geerling大佬还开发了名为Beowulf AI Cluster的自动化部署工具集ÿ...
AI 场景深度优化!K8s 集群 OSSFS 2.0 存储卷全面升级,高效访问 OSS 数据
【阅读原文】戳:AI 场景深度优化!K8s 集群 OSSFS 2.0 存储卷全面升级,高效访问 OSS 数据 01. 背景 阿里云对象存储 OSS 是一款海量、安全、低成本、高可靠的云存储服务,是用户在云上存储数据的高性价比选择,在北京、上海、杭州、深圳、新加坡地域提供单账号高达 100 Gbps 的下载带宽,可以很好地满足客户...
AI 场景深度优化!K8s 集群 OSSFS 2.0 存储卷全面升级,高效访问 OSS 数据
背景 阿里云对象存储 OSS 是一款海量、安全、低成本、高可靠的云存储服务,是用户在云上存储的高性价比选择,在北京、上海、杭州、深圳、新加坡地域提供单账号高达 100Gbps 的下载带宽,可以很好地满足客户日益增长的带宽需求。 在 K8s 集群部署的业务若需要像操作本地文件一样读写在云端的 OSS 数据,需要将 OSS 类型的存储卷挂载至容器内。OSS 原生仅...
秒级灾备恢复:Kafka 2025 AI自愈集群下载及跨云Topic迁移终极教程
一、平台定位与技术突破 Apache Kafka 2025作为企业级实时数据中枢,实现五大革新: 量子安全传输:集成CRYSTALS-Kyber抗量子加密算法(NIST认证) 联邦学习总线:支持TensorFlow Federated/Horizontal FL框架数据同步 AI自愈集群:基于强化学习的节点故障预测与恢复(MTTR缩短至30秒内) ...
exo:22.1K Star!一个能让任何人利用日常设备构建AI集群的强大工具,组成一个虚拟GPU在多台设备上并行运行模型
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术! 微信公众号|搜一搜:蚝油菜花 大家好,我是蚝油菜花,今天跟大家分享一下 exo 这个开源项目,它能让你利用家中的日常设备构建强大的 AI 集群。 快速阅读 exo 是一个开源项目,旨在让你利用家中的日常设备(如 iPhone...
本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。
产品推荐
阿里云机器学习平台PAI
阿里云机器学习PAI(Platform of Artificial Intelligence)面向企业及开发者,提供轻量化、高性价比的云原生机器学习平台,涵盖PAI-iTAG智能标注平台、PAI-Designer(原Studio)可视化建模平台、PAI-DSW云原生交互式建模平台、PAI-DLC云原生AI基础平台、PAI-EAS云原生弹性推理服务平台,支持千亿特征、万亿样本规模加速训练,百余落地场景,全面提升工程效率。
+关注