文章 2025-02-28 来自:开发者社区

应对IDC资源紧缺:ACK Edge如何解决LLM推理服务的弹性挑战

背景 春节期间,国产大模型DeepSeek凭借其卓越的性能和创新能力在全球范围内迅速走红,引发了广泛的关注和讨论。然而,随着访问量的急剧攀升,其推理服务器资源很快变得捉襟见肘,最终不得不暂停API充值服务。这一系列事件让业界认识到,大语言模型(LLM)的推理业务正逐渐成为AI产业竞争的又一个至关重要的业务场景。 LLM推理业务的需求往往呈现出显著的潮汐流量特性...

应对IDC资源紧缺:ACK Edge如何解决LLM推理服务的弹性挑战
文章 2025-02-10 来自:开发者社区

应对IDC资源紧缺:ACK Edge如何解决LLM推理服务的弹性挑战

【阅读原文】戳:应对IDC资源紧缺:ACK Edge如何解决LLM推理服务的弹性挑战 背景       春节期间,国产大模型DeepSeek凭借其卓越的性能和创新能力在全球范围内迅速走红,引发了广泛的关注和讨论。然而,随着访问量的急剧攀升,其推理服务器资源很快变得捉襟见肘,最终不得不暂停API充值服务。这一...

应对IDC资源紧缺:ACK Edge如何解决LLM推理服务的弹性挑战
阿里云文档 2024-11-01

AI模型推理服务在Knative中最佳配置实践

Knative和AI结合提供了快速部署、高弹性和低成本的技术优势,适用于需要频繁调整计算资源的AI应用场景,例如模型推理等。您可以通过Knative Pod部署AI模型推理任务,配置自动扩缩容、灵活分配GPU资源等功能,提高AI推理服务能力和GPU资源利用率。

阿里云文档 2024-11-01

AI模型推理服务在Knative中最佳配置实践

Knative和AI结合提供了快速部署、高弹性和低成本的技术优势,适用于需要频繁调整计算资源的AI应用场景,例如模型推理等。您可以通过Knative Pod部署AI模型推理任务,配置自动扩缩容、灵活分配GPU资源等功能,提高AI推理服务能力和GPU资源利用率。

阿里云文档 2024-07-01

部署GPU共享推理服务

在某些场景下,您可能需要将多个模型推理任务共享在同一块GPU以提高GPU的利用率。本文以模型类型为Qwen1.5-0.5B-Chat,GPU类型为V100卡为例,演示如何使用KServe部署GPU共享的模型推理服务。

阿里云文档 2024-06-12

部署vLLM推理应用

vLLM(Vectorized Large Language Model)是一个高性能的大型语言模型推理库,支持多种模型格式和后端加速,适用于大规模语言模型的推理服务部署。本文以Qwen-7B-Chat-Int8模型、GPU类型为V100卡为例,演示如何部署一个vLLM推理服务。

阿里云文档 2024-05-17

基于Nginx Ingress Controller网关实现推理服务的灰度发布

在Raw Deployment部署模式下,应用的灰度发布需要基于网关实现。本文以Nginx Ingress Controller网关为例,介绍如何实现推理服务的灰度发布,并最终平稳地完成从v1到v2版本推理服务的升级。

文章 2024-03-30 来自:开发者社区

如何基于ACK Serverless快速部署AI推理服务

基于ACK Serverless(Alibaba Cloud Kubernetes Serverless Framework)快速部署AI推理服务的步骤如下: 创建函数计算服务: 在阿里云控制台,创建一个函数计算服务,用于托管AI推理服务的代码。编写AI推理代码: 使用适合的编程语言编写AI推理...

如何基于ACK Serverless快速部署AI推理服务
文章 2023-08-04 来自:开发者社区

如何基于 ACK Serverless 快速部署 AI 推理服务

作者:元毅随着 AI 浪潮的到来,各种 AI 应用层出不穷,众所周知 AI 应用对 GPU 资源强烈依赖,但 GPU 很昂贵,如何降低 GPU 资源使用成本成为用户首要问题。而 AI 与 Serverless 技术结合,完全可以达到按需使用资源,降低资源成本的目的。那么在云原生场景下,是否有这样开箱即用、标准、开放的方案呢?答案是有。我们在 ACK Serverless 中提供 Knative ....

如何基于 ACK Serverless 快速部署 AI 推理服务

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

容器服务

国内唯一 Forrester 公共云容器平台领导者象限。

+关注
相关镜像