阿里云文档 2026-06-10

使用LLM智能路由提升推理效率

面对大语言模型(LLM)场景中请求长度多变、Token 生成随机及 GPU 资源波动等挑战,传统负载均衡因无法实时感知后端压力而导致实例负载不均,严重影响系统性能。为此,EAS 推出了集智能调度与可视化运维于一体的 LLM 智能路由服务,基于 LLM 实时指标动态均衡算力与显存,保障高吞吐与稳定性,并通过内置的 WebUI 工作台,提供实时监控、配置热更新及多用户 API Key 独立管控能力,在...

文章 2025-10-03 来自:开发者社区

134_边缘推理:TensorFlow Lite - 优化移动端LLM部署技术详解与实战指南

引言 在人工智能与移动计算深度融合的今天,将大语言模型(LLM)部署到移动端和边缘设备已成为行业发展的重要趋势。TensorFlow Lite作为专为移动和嵌入式设备优化的轻量级推理框架,为开发者提供了将复杂AI模型转换为高效、低功耗边缘计算解决方案的强大工具。随着移动设备硬件性能的不断提升和模型压缩技术的快速发展,2025年的移动端LLM部署已不再是遥...

134_边缘推理:TensorFlow Lite - 优化移动端LLM部署技术详解与实战指南
文章 2025-10-03 来自:开发者社区

131_推理加速:ONNX与TensorRT深度技术解析与LLM模型转换优化实践

1. 引言 在大语言模型(LLM)时代,高效的推理加速已成为部署高性能AI应用的关键挑战。随着模型规模的不断扩大(从BERT的数亿参数到GPT-4的数千亿参数),推理过程的计算成本和延迟问题日益突出。ONNX(开放神经网络交换格式)和TensorRT作为业界领先的推理优化框架ÿ...

131_推理加速:ONNX与TensorRT深度技术解析与LLM模型转换优化实践
文章 2025-09-11 来自:开发者社区

解决推理能力瓶颈,用因果推理提升LLM智能决策

从ChatGPT到现在的智能体AI这个跨越说明了一个关键转变。ChatGPT本质上是个聊天机器人,生成文本回应;而AI智能体能够自主完成复杂任务——销售、旅行规划、航班预订、找装修师傅、点外卖,这些都在它的能力范围内。 目前我们解决用户任务时,主要是让大语言模型(LLM)做任务分解,这也是和生成式AI重叠的地方。但问题就出在这里: 今天的智能体AI系统被LLM的推理能力限制住了——这个问题在...

解决推理能力瓶颈,用因果推理提升LLM智能决策
阿里云文档 2025-09-04

为LLM推理服务配置推理网关智能路由

传统的HTTP请求,经典负载均衡算法可以将请求均匀地发送给不同的工作负载。然而,对于LLM推理服务来说,每个请求给后端带来的负载是难以预测的。推理网关(Gateway with Inference Extension)是基于Kubernetes社区Gateway API及其Inference Extension规范实现的增强型组件,它能够通过智能路由优化在多个推理服务工作负载之间的负载均衡性能,根...

文章 2025-06-27 来自:开发者社区

云上AI推理平台全掌握 (1):PAI-EAS LLM服务一键压测

在云上构建高效、可扩展的 AI 推理平台,不仅需要应对千亿参数模型的计算复杂度,更需解决高并发、低延迟、动态负载等现实挑战。只有通过科学、贴近业务的压测体系,才能验证平台在真实场景下的极限承载能力。 本期内容将聚焦云上 LLM 推理服务的压测实践,帮助企业和开发者在复杂业务流量下,实现推理性能的精准调优与成本优化,为大规模 AI 应用落地筑牢基础。 阿里云人工智能平台 ...

云上AI推理平台全掌握 (1):PAI-EAS LLM服务一键压测
文章 2025-04-10 来自:开发者社区

能够双向推理的LLM!Dream-7B:港大联合华为开源的扩散推理模型,能够同时考虑前后文信息

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术! AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 「扩散模型颠覆传统LLM生成方式!让文本生成进入"全局...

能够双向推理的LLM!Dream-7B:港大联合华为开源的扩散推理模型,能够同时考虑前后文信息
阿里云文档 2025-03-19

在ACK Edge集群中部署混合云LLM弹性推理

为解决混合云场景下部署LLM推理业务时,流量的不均衡带来的数据中心GPU资源分配问题,ACK Edge集群提供了一套混合云LLM弹性推理解决方案,帮您统一管理云上和云下的GPU资源,低峰期优先使用云下数据中心资源,高峰期资源不足时快速启用云上资源。该方案帮您显著降低LLM推理服务运营成本,动态调整并灵活利用资源,保障服务稳定性,避免资源闲置。

文章 2025-02-14 来自:开发者社区

仅7B的模型数学推理能力完虐70B?MIT哈佛推出行动思维链COAT让LLM实现自我反思并探索新策略

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术! 微信公众号|搜一搜:蚝油菜花 大家好,我是蚝油菜花,在海量模型中某一个不起眼的角落,竟有这么一个数学推理专家,它仅靠 7B 的参数量,却足以超越一众主流的小型模型,并与大型模型不相上下。究竟是怎么做到的呢? 今天跟大家分享一下...

仅7B的模型数学推理能力完虐70B?MIT哈佛推出行动思维链COAT让LLM实现自我反思并探索新策略
文章 2025-01-16 来自:开发者社区

加速大语言模型推理:NVIDIATensorRT-LLM更新

加速大语言模型推理:NVIDIATensorRT-LLM更新 内容介绍 一、大模型推理挑战与解决方案 二、大模型推理优化与性能提升策略 三、KVCash在用户请求处理中的应用 四、大模型优化与应用探索   本次分享的主题是加速大语言模型推理:NVIDIATensorRT-LLM更新,由NVIDIA开发与技术部门亚太区资深...

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。