为LLM推理服务配置推理网关智能路由
传统的HTTP请求,经典负载均衡算法可以将请求均匀地发送给不同的工作负载。然而,对于LLM推理服务来说,每个请求给后端带来的负载是难以预测的。推理网关(Gateway with Inference Extension)是基于Kubernetes社区Gateway API及其Inference Extension规范实现的增强型组件,它能够通过智能路由优化在多个推理服务工作负载之间的负载均衡性能,根...
为PD分离推理服务配置弹性伸缩策略
在Prefill-Decode(PD)分离的LLM推理架构中,Prefill和Decode阶段的资源需求差异巨大,传统的CPU/GPU利用率指标无法有效指导弹性伸缩。本方案以Dynamo框架为例,介绍如何利用KEDA,根据NATS消息队列的积压情况,为Prefill角色配置独立的弹性伸缩策略,实现资源按需分配,优化服务成本与性能。
为单机/多机推理配置弹性扩缩容
在管理LLM推理服务时,需要应对模型推理过程中高度动态的负载波动。本文通过结合推理框架的自定义指标与 Kubernetes HPA(Horizontal Pod Autoscaler)机制,实现对推理服务Pod数量的自动灵活调整,从而有效提升推理服务的质量与稳定性。
为LLM推理服务配置监控
在生产环境中LLM推理服务的可观测性是至关重要的,可以监控LLM推理服务、推理服务Pod及相关GPU的性能指标,有效发现性能瓶颈,帮助定位故障。本文介绍如何为LLM推理服务配置监控。
阿里云容器服务&云安全中心团队荣获信通院“云原生安全标杆案例”奖
【阅读原文】戳:阿里云容器服务&云安全中心团队荣获信通院“云原生安全标杆案例”奖 2024年12月24日,由中国信息通信研究院(以下简称“中国信通院”)主办的“2025中国信通院深度观察报告会:算力互联网分论坛”,在北京隆重召开。本次论坛以“算力互联网 新质生产力”为主题,全面展示中国信通院在算力互联网产业领域的研究、实践与业界共识,与产业先行者共同探索算力互...
容器服务:智算时代云原生操作系统及月之暗面Kimi、深势科技实践分享
一、容器技术实践发展 目前容器技术已经成为了云计算操作系统,向下高效调度多样化异构算力,评比基础设施差异,向上提供统一编程接口,支持多样化工作负载。团队已经在云上服务了数万企业客户和众多开发者。帮助众多企业实现了互联网架构升级。在帮助更多企业客户来实现智能化和数字化专心。可观察像自动驾驶以及大模型等一系列创新应用运行在主体平台之上。 2024年巴黎奥运会是阿里云承载一次...
阿里云容器服务助力企业构建云原生软件供应链安全
本文整理自匡大虎、马元元、程涛与黄竹刚在2024云栖大会的演讲 针对软件供应链的攻击事件在以每年三位数的速度激增,其中三方或开源软件已经成为攻击者关注的重要目标,其攻击方式和技术也在不断演进。通过供应链的传播,一个底层软件包的漏洞的影响范围可以波及世界。企业亟需更加标准和完善的供应链风险洞察和防护机制。本文将结合最佳实践的形式,面向容器应用完整的生命周期展示如何基于容器服务AC...
阿里云容器服务,智算时代云原生操作系统
本文整理自2024云栖大会阿里巴巴研究员、阿里云容器服务负责人易立演讲 2024年云栖大会,是我个人第十次分享阿里云容器产品技术的进展。非常荣幸能在云原生技术蓬勃发展的这个时代,帮助到的客户与开发者们利用容器技术在云端构建云原生的基础设施、研发流程与应用架构。在智算时代,我们从心出发! ...
阿里云容器服务助力企业构建云原生软件供应链安全
【阅读原文】戳:阿里云容器服务助力企业构建云原生软件供应链安全 本文整理自匡大虎、马元元、程涛与黄竹刚在2024云栖大会的演讲 针对软件供应链的攻击事件在以每年三位数的速度激增,其中三方或开源软件已经成为攻击者关注的重要目标,其攻击方式和技术也在不断演进。通过供应链的传播,一个底层软件包的漏洞的影响范围可以波及世界。企业亟需更加标准和完善的供应链风...
本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。