文章
2024-09-07
来自:开发者社区
CPU反超NPU,llama.cpp生成速度翻5倍!LLM端侧部署新范式T-MAC开源
随着大型语言模型(LLM)在智能设备上的广泛应用,如何在资源受限的边缘设备上高效部署LLM成为了一个关键问题。最近,微软研究院提出了一种名为T-MAC的创新方法,通过查表法(LUT)在CPU上实现低比特LLM(即权重量化LLM)的高效推理。T-MAC直接支持混合精度矩阵乘...
问答
2023-09-27
来自:开发者社区
ModelScope中求教一下,我GPU显存不够,怎么强制用CPU运行魔搭LLM模型呀?
ModelScope中求教一下,我GPU显存不够,怎么强制用CPU运行魔搭LLM模型呀
本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。