阿里云文档 2025-04-01

在ACK中使用KTransformers部署DeepSeek-R1模型

KTransformers框架实现了多种LLM推理优化,进一步减少了推理阶段的显存占用,从而提高推理性能和降低GPU资源成本。本文介绍如何在阿里云容器服务 Kubernetes 版中通过KTransformers实现高效部署671B参数的DeepSeek-R1-Q4_K_M量化模型推理服务。

文章 2025-03-08 来自:开发者社区

使用容器服务ACK快速部署QwQ-32B模型并实现推理智能路由

【阅读原文】戳:使用容器服务ACK快速部署QwQ-32B模型并实现推理智能路由 背景介绍     1. QwQ-32B模型 阿里云最新发布的QwQ-32B模型,通过强化学习大幅度提升了模型推理能力。QwQ-32B模型拥有320亿参数,其性能可以与DeepSeek-R1 671B媲美。模型数学代码等核心指标(...

使用容器服务ACK快速部署QwQ-32B模型并实现推理智能路由
阿里云文档 2024-10-09

安全责任共担模型

安全合规在ACK集群托管架构下遵循责任共担原则,其中容器服务ACK负责集群控制面组件(包括Kubernetes控制平面组件和etcd)以及集群服务相关阿里云基础设施的默认安全性。本文介绍阿里云容器服务ACK的安全责任共担模型。

阿里云文档 2024-08-13

在ACK中快速体验大语言模型

部署模型时,您可以根据自身需求选择模型来源以及部署模型的平台。本文以Qwen1.5-4B-Chat模型、GPU类型为T4卡为例,演示如何在ACK中快速部署ModelScope模型、HuggingFace模型及本地模型。

阿里云文档 2024-07-12

使用Arena进行模型微调和模型管理

本文以大语言模型Qwen-7B-Chat为例,并结合Arena工具,演示如何在提交模型微调作业的同时,对模型微调作业所产生的模型进行管理。

阿里云文档 2024-06-12

基于KServe使用Fluid实现模型加速

随着技术的发展,AI应用的模型数据越来越大,但是通过存储服务(如OSS、NAS等)拉取这些大文件时可能会出现长时间的延迟和冷启动问题。您可以利用Fluid显著提升模型加载速度,从而优化推理服务的性能,特别是对于基于KServe的推理服务而言。本文以Qwen-7B-Chat-Int8模型、GPU类型为V100卡为例,演示如何在KServe中使用Fluid实现模型加速。

问答 2022-02-15 来自:开发者社区

容器服务的网络模型,如何做到容器跨主机互联?

容器服务的网络模型,如何做到容器跨主机互联?

问答 2022-02-15 来自:开发者社区

容器服务的网络模型,如何做到容器跨主机互联?

容器服务的网络模型,如何做到容器跨主机互联?

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐