阿里云文档 2026-04-20

MaxCompute AI Function提供低代码、多引擎支持的预定义函数,简化大模型与机器学习推理在大数据场景中的应用。更加便捷的通过SQL或Python调用大模型和机器学习能力。

AI Function是MaxCompute提供的一组面向AI业务场景的预定义函数,将复杂的AI 推理操作封装为简洁的SQL或Python算子。用户无需编写底层模型调用代码,即可通过标准SQL或MaxFrame(分布式Python引擎)直接调用大模型或机器学习模型,显著降低用户在数据处理、大数据分析等场景的AI使用门槛。

文章 2025-09-18 来自:开发者社区

​​LLM推理效率的范式转移:FlashAttention与PagedAttention正在重塑AI部署的未来​

本文较长,建议点赞收藏,以免遗失。 在大语言模型(LLM)的推理过程中,Attention机制是计算和内存消耗的主要瓶颈。FlashAttention和PagedAttention作为两项革命性优化技术,分别从计算效率和内存管理两个维度显著提升了LLM的推理性能。今天我将深度解析这两种注意力加速技术及其优化策略...

​​LLM推理效率的范式转移:FlashAttention与PagedAttention正在重塑AI部署的未来​
阿里云文档 2025-09-04

为LLM推理服务配置推理网关智能路由

传统的HTTP请求,经典负载均衡算法可以将请求均匀地发送给不同的工作负载。然而,对于LLM推理服务来说,每个请求给后端带来的负载是难以预测的。推理网关(Gateway with Inference Extension)是基于Kubernetes社区Gateway API及其Inference Extension规范实现的增强型组件,它能够通过智能路由优化在多个推理服务工作负载之间的负载均衡性能,根...

阿里云文档 2025-08-21

为单机/多机推理配置弹性扩缩容

在管理LLM推理服务时,需要应对模型推理过程中高度动态的负载波动。本文通过结合推理框架的自定义指标与 Kubernetes HPA(Horizontal Pod Autoscaler)机制,实现对推理服务Pod数量的自动灵活调整,从而有效提升推理服务的质量与稳定性。

阿里云文档 2025-08-13

基于ACK多机分布式部署DeepSeek满血版推理部署实战

本文深入解析基于阿里云容器服务ACK的DeepSeek-R1-671B大模型分布式推理实战方案。针对该千亿参数模型(671B)单卡显存不足的挑战,提出混合并行策略(Pipeline Parallelism=2 + Tensor Parallelism=8),结合阿里云Arena工具,实现在2台ecs.ebmgn8v.48xlarge(8*96GB)节点上的高效分布式部署。进一步演示如何将部署于AC...

文章 2025-06-16 来自:开发者社区

UGPhysics:本科物理推理评估基准发布,助力AI+Physics交叉研究

01.摘要 近年来,人工智能快速发展,大语言模型(LLM)在数学、代码等领域展现出强大的推理和生成能力,正在被广泛应用于各种场景。为了更准确评估LLM 的推理能力,之前有研究者们陆续构建了多个标准化数据集,以数学领域为例,如GSM8K、MATH、UGMathBench 等,用于衡量模型解决数学问题的准确性。 然而,与数学相比,物理推理任务更具挑战性:不仅依赖数学推导能力,更需掌握...

UGPhysics:本科物理推理评估基准发布,助力AI+Physics交叉研究
文章 2025-04-17 来自:开发者社区

面向 MoE 和推理模型时代:阿里云大数据 AI 产品升级发布

阿里云 2025 AI 势能大会上,阿里云智能集团副总裁、阿里云智能计算平台事业部负责人汪军华带来主题演讲《范式演进:MoE&推理模型时代的挑战与应对》,并发布大数据 AI 平台一系列重磅产品能力升级。 汪军华认为,从 Generative AI 发展到今天的 Agentic...

面向 MoE 和推理模型时代:阿里云大数据 AI 产品升级发布
文章 2025-02-05 来自:开发者社区

node-DeepResearch:开源复现版OpenAI Deep Research,支持多步推理和复杂查询的AI智能体

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦! 微信公众号|搜一搜:蚝油菜花 快速阅读 项目介绍:node-DeepResearch 是一个开源 AI 智能体,基于 Gemini 语言模型和 Jina Reader 工具,支持多步推理和复杂查询。...

node-DeepResearch:开源复现版OpenAI Deep Research,支持多步推理和复杂查询的AI智能体
文章 2025-01-02 来自:开发者社区

面向高效大模型推理的软硬协同加速技术 多元化 AI 硬件引入评测体系

先分享一下背景,现在 AI 硬件越来越多,各种种类,各种技术架构,从云的角度,要回答一个问题,硬件好不好用?怎么用?评测体系其实更多服务这个领域,包括技术的总结。 本次主要就从三个方面来进行阐述,第一方面面向 AI 硬件的统一评测标准。第二方面是平台化和工具化,这块是一个技术的实现。第三方面多维度评测数据的消费链路,是整个的评测的数据如何被用户消费,怎么理解数据?这三方面主要目...

阿里云文档 2024-12-05

AI模型推理

Lindorm AI引擎支持使用模型推理RESTful API接口调用状态为READY的模型,以执行推理、生成等任务。

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

{"cardStyle":"activityCardStyle","productCardInfo":{"productTitle":"","productDescription":"","productContentLink":"","isDisplayProductIcon":true,"isOfficialLogo":false},"activityCardInfo":{"activityTitle":"AI 编码","activityDescription":"百万 Qwen-coder 大模型 tokens 免费体验,灵码79元起,加速 AI 应用落地 ","cardContentBackgroundMode":"LightMode","activityContentBackgroundImageLink":"","activityCardBottomInfoSelect":"activityPromotionInfoBlock","activityButton1":{"activityButtonText":"查看详情","activityButtonLink":"https://www.aliyun.com/benefit/scene/coding"},"activityButton2":{"activityButtonText":"立即体验","activityButtonLink":"https://bailian.console.aliyun.com/?spm=5176.30202035.J_VanPN1KXIVRyCVhZMwQ6t.6.1b791e71pokqL0&tab=model#/efm/model_experience_center/text?currentTab=textChat&modelId=qwen3-coder-plus"},"activityButton3":{"activityButtonText":"立即购买","activityButtonLink":"https://www.aliyun.com/benefit/scene/coding#J_1"}}}
AI 编码
百万 Qwen-coder 大模型 tokens 免费体验,灵码79元起,加速 AI 应用落地

阿里云机器学习平台PAI

阿里云机器学习PAI(Platform of Artificial Intelligence)面向企业及开发者,提供轻量化、高性价比的云原生机器学习平台,涵盖PAI-iTAG智能标注平台、PAI-Designer(原Studio)可视化建模平台、PAI-DSW云原生交互式建模平台、PAI-DLC云原生AI基础平台、PAI-EAS云原生弹性推理服务平台,支持千亿特征、万亿样本规模加速训练,百余落地场景,全面提升工程效率。

+关注