阿里云文档 2026-02-27

基于请求队列、KVCache以及LoRA感知等多维度的智能路由与流量管理

针对部署在Kubernetes集群中的LLM推理服务,由于LLM推理流量和工作负载的特殊性,经典的负载均衡方法效果不佳,且无法从日志和监控指标中获取LLM推理相关信息。本文将介绍如何在服务网格ASM中为vLLM推理服务声明推理服务池和路由定义,以提升负载均衡性能,并实现推理流量的路由和可观测性。

阿里云文档 2026-02-27

在ASM中实现LLM请求缓存功能

LLM应用在提供强大功能的同时,往往也伴随着巨大的计算成本和延迟。为了解决这些问题,提高模型调用效率并降低延迟,越来越多的LLM应用开始采用缓存。LLM Cache通过在一定期间内存储和重用LLM的计算结果,可以大幅减少重复计算,优化响应时间,从而提升整体系统性能。本文将介绍如何在服务网格 ASM(Service Mesh)中快速接入LLM Cache。

阿里云文档 2026-02-27

在ASM中基于请求Header实现LLM Token限流

服务网格 ASM(Service Mesh)支持基于请求属性(如TCP属性、HTTP Header、路径、Host)和路由目标,限制指定客户端的LLM请求Token数。本文将演示如何通过LLM请求Header限制Token消耗量。若超过限额,Proxy将直接返回响应,请求不会被发送到外部。

阿里云文档 2026-02-27

使用ASM回退功能构建高可用的LLM服务

在LLM场景中,业务应用需要对接内部或外部的基础模型服务。服务网格 ASM(Service Mesh)支持同时对接多个基础模型服务,并且可以实现当一个模型服务不可用时,自动回退到另一个模型服务,助力企业实现LLM应用的高可用。本文介绍如何在对接LLM服务时使用流量回退功能。

阿里云文档 2025-03-24

Multi-LoRA场景下的LLM推理服务灰度策略

在Kubernetes集群中部署大型语言模型(LLM)推理服务时,基于低秩适应LoRA(Low-Rank Adaptation)技术对大模型进行微调并提供定制化推理能力,已成为高效且灵活的最佳实践。本文介绍在服务网格 ASM(Service Mesh)中,如何基于Multi-LoRA的微调LLM推理服务,指定多LoRA模型的流量分发策略,从而实现LoRA模型灰度。

文章 2025-01-03 来自:开发者社区

使用阿里云服务网格高效管理LLM流量:(二)流量可观测

【阅读原文】戳:使用阿里云服务网格高效管理LLM流量:(二)流量可观测 良好的可观测能力是构建一个高效、稳定的分布式应用的前提,在LLM应用中更是如此。纵观很多复杂系统的发展历程后不难发现:标准化以及分层是时间大浪淘沙留下来的经典方案。起初开发人员需要手动编写代码,自行控制透出可观测信息;之后这些可观测逻辑被下沉到开发框架中,由开发框架透出一部分通用信息;服务网格出现之后,越来...

使用阿里云服务网格高效管理LLM流量:(二)流量可观测
文章 2024-07-15 来自:开发者社区

使用阿里云服务网格高效管理LLM流量:(一)流量路由

【阅读原文】戳:使用阿里云服务网格高效管理LLM流量:(一)流量路由 人工智能领域由于大型语言模型(LLM)的出现而迎来了飞速发展。这些先进的人工智能模型能够和人类通过自然语言的方式顺畅沟通,并且具有一定的推理能力,已经完全改变了人类获取信息以及处理文本数据的方式。国内外厂商相继推出了自己的大模型服务,并且提供了适应特定行业需求的领域模型。越来越多的应用正在接入LLM。 ...

使用阿里云服务网格高效管理LLM流量:(一)流量路由

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。