问答 2024-07-23 来自:开发者社区

对比发现Qwen2-72B-int2效果优于Qwen2-72B,ModelScope有什么优化思路?

目前使用V100部署了Qwen2-72B(6卡)和Qwen2-72B-int2(单卡)模型,对比发现Qwen2-72B-int2效果优于Qwen2-72B,ModelScope是否有什么好的优化思路?

文章 2024-01-23 来自:开发者社区

使用NVIDIA TensorRT-LLM支持CodeFuse-CodeLlama-34B上的int4量化和推理优化实践

$stringUtil.substring( $!{XssContent1.description},200)...

使用NVIDIA TensorRT-LLM支持CodeFuse-CodeLlama-34B上的int4量化和推理优化实践

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。