文章 2025-06-22 来自:开发者社区

大模型推理显存和计算量估计方法

最近做吞吐量调试涉及到输入batch_size的设置,为了把算力和显存用起来,同时不触发out of memory,需要提前估计大模型推理过程中的显存占用,我参考了MindIE官网的这个文档完成了估计:https://www.hiascend.com/document/detail/zh/mindie/20RC2/mindie...

大模型推理显存和计算量估计方法
文章 2025-04-24 来自:开发者社区

ICLR 2025 | EDiT:一种基于 Local SGD 策略的大模型高效分布式训练方法

目前的分布式训练方法面临通信瓶颈、慢节点和缺乏弹性等问题。虽然研究者针对性地提出了 Local SGD 方法,但受限于额外的内存开销以及缺乏对效率和稳定性的考虑,其仅在小规模模型的训练中有效。因此,我们提出了 EDiT (Efficient Distributed Training) 方法,将 Local SGD 方法与模型划分技术结合以提高大模型训练效率。EDiT 引入了层级同步策略、虚拟梯度....

ICLR 2025 | EDiT:一种基于 Local SGD 策略的大模型高效分布式训练方法
文章 2025-04-22 来自:开发者社区

美团面试:LLM大模型存在哪些问题?RAG 优化有哪些方法?_

本文 的 原文 地址 本文 的 原文 地址 尼恩:LLM大模型学习圣经PDF的起源 在40岁老架构师 尼恩的读者交流群(50+)中,经常性的指导小伙伴们改造简历。 经过尼恩的改造之后,很多小伙伴拿到了一线互联网企业如得物、阿里、滴滴、极兔、有赞、希音、百度、网易、美团的面试机会,拿到了大厂机会。 然而,其中一个成功案例,是一个9年经验 网易的小伙伴,当时拿到了一个年薪近80W的大模型架构of...

美团面试:LLM大模型存在哪些问题?RAG 优化有哪些方法?_
问答 2025-01-03 来自:开发者社区

通义千问关于nx二次开发(c++)里的很多函数方法解释是错的,或者说模型没有覆盖到

比如通义千问关于nx二次开发(c++)里的很多函数方法解释是错的,或者说模型没有覆盖到

文章 2024-11-19 来自:开发者社区

一种基于通义千问prompt辅助+Qwen2.5-coder-32b+Bolt.new+v0+Cursor的无代码对话网站构建方法

前言 今年似乎大模型之间的“内卷”已经有些偃旗息鼓了,各大技术公司逐渐从单纯追求模型参数量的竞赛中抽身,转向更加注重模型的实际应用效果与效率,开始内卷起了LLM“载具” 不知道这个词是不是我第一个发明的哈,总之我更喜欢将结合了大模型的工具都称之为LLM“载具”,这些“载具”就像是为强大的大模型配备了各种增强功能的载体ÿ...

一种基于通义千问prompt辅助+Qwen2.5-coder-32b+Bolt.new+v0+Cursor的无代码对话网站构建方法
文章 2024-11-14 来自:开发者社区

多模态大模型LLM、MLLM性能评估方法

针对多模态大模型(LLM)和多语言大模型(MLLM)的性能评估方法,以下是一些关键的评估方法和标准: 模态融合率(MIR): 中国科学技术大学提出了模态融合率(MIR)来高效评估多模态预训练对齐质量。MIR能够准确对应模型在有监督微调后在下游测...

文章 2024-10-30 来自:开发者社区

大模型进阶微调篇(一):以定制化3B模型为例,各种微调方法对比-选LoRA还是PPO,所需显存内存资源为多少?

在大模型的微调过程中,选择合适的方法来高效地提高模型性能是非常关键的。今天我们来聊一聊两种常见的微调方式——LoRA(Low-Rank Adaptation)和 PPO(Proximal Policy Optimization),以及它们各自的优缺点和适用场景。通过详细的对比分析,希望能帮助你选择最...

文章 2024-10-11 来自:开发者社区

北大李戈团队提出大模型单测生成新方法,显著提升代码测试覆盖率

北京大学李戈教授领导的研究团队最近提出了一种创新的方法,用于提高大模型在单一测试中的代码生成覆盖率。这一研究成果在学术界引起了广泛关注,并被认为是大模型测试领域的一项重要突破。 该研究团队提出了一种名为"统一生成测试"的方法,旨在解决现有大模型测试方法在覆盖率方面的局限性。传统的大模型测试方法通常依赖于随机生成测试用例或基于搜索的策略&#...

文章 2024-09-27 来自:开发者社区

北大李戈团队提出大模型单测生成新方法,显著提升代码测试覆盖率

最近,北京大学的李戈团队在人工智能领域取得了一项重要突破。他们提出了一种名为HITS(High-coverage LLM-based Unit Test Generation via Method Slicing)的新方法,用于生成大型语言模型(LLM)的单元测试。这一方法显著提升了代码测试的覆盖率,...

文章 2024-08-31 来自:开发者社区

谷歌发布大模型数据筛选方法:效率提升13倍,算力降低10倍

近日,谷歌发布了一项关于大模型数据筛选方法的研究成果,该方法被称为多模态对比学习联合示例选择(JEST)。这项研究展示了在大规模预训练过程中,通过联合选择数据批次而不是独立选择示例,可以更有效地进行学习。 在人工智能领域,大模型的预训练是至关重要的一步。然而,由于数据量庞大且质量参差不...

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

通义大模型

阿里云自主研发的通义大模型,凭借万亿级超大规模数据训练和领先的算法框架,实现全模态高效精准的模型服务调用。https://www.aliyun.com/product/tongyi

+关注