阿里云文档 2025-04-27

在ACK中使用KTransformers部署DeepSeek-R1模型

KTransformers框架实现了多种LLM推理优化,进一步减少了推理阶段的显存占用,从而提高推理性能和降低GPU资源成本。本文介绍如何在阿里云容器服务 Kubernetes 版中通过KTransformers实现高效部署671B参数的DeepSeek-R1-Q4_K_M量化模型推理服务。

阿里云文档 2024-10-09

安全责任共担模型

安全合规在ACK集群托管架构下遵循责任共担原则,其中容器服务ACK负责集群控制面组件(包括Kubernetes控制平面组件和etcd)以及集群服务相关阿里云基础设施的默认安全性。本文介绍阿里云容器服务ACK的安全责任共担模型。

文章 2024-08-23 来自:开发者社区

在K8S中,cailico的ipip模型和ciliume的vxlan模型除了在具体的实现不同,在原理上有何区别?

在Kubernetes中,Calico的IP-in-IP(IP over IP)模型和Cilium的VXLAN(Virtual eXtensible Local Area Network)模型都旨在解决跨主机通信的问题,但它们在原理上有着本质的区别,这些差异主要体现在数据包的封装、网络层级、性能影响以及网络策略的实施上。 1. Calico的IPIP模型 原理: ...

文章 2024-08-23 来自:开发者社区

在K8S中,calico和cilium这两种cni有什么区别?cailico的ipip模型和ciliume的vxlan模型,两种不通模型性能也不同,它们怎么处理数据的?

在Kubernetes(K8S)中,Calico和Cilium是两种流行的容器网络接口(CNI)插件,它们各自具有独特的特点和优势。下面将详细比较这两种CNI插件,并探讨Calico的IPIP模型和Cilium的VXLAN模型在数据处理上的差异。 1. Calico与Cilium的区别 ...

阿里云文档 2024-08-13

在ACK中快速体验大语言模型

部署模型时,您可以根据自身需求选择模型来源以及部署模型的平台。本文以Qwen1.5-4B-Chat模型、GPU类型为T4卡为例,演示如何在ACK中快速部署ModelScope模型、HuggingFace模型及本地模型。

阿里云文档 2024-07-12

使用Arena进行模型微调和模型管理

本文以大语言模型Qwen-7B-Chat为例,并结合Arena工具,演示如何在提交模型微调作业的同时,对模型微调作业所产生的模型进行管理。

阿里云文档 2024-06-12

基于KServe使用Fluid实现模型加速

随着技术的发展,AI应用的模型数据越来越大,但是通过存储服务(如OSS、NAS等)拉取这些大文件时可能会出现长时间的延迟和冷启动问题。您可以利用Fluid显著提升模型加载速度,从而优化推理服务的性能,特别是对于基于KServe的推理服务而言。本文以Qwen-7B-Chat-Int8模型、GPU类型为V100卡为例,演示如何在KServe中使用Fluid实现模型加速。

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

阿里云容器服务 ACK

云端最佳容器应用运行环境,安全、稳定、极致弹性

+关注