文章 2025-03-07 来自:开发者社区

清华UCSD提出全新微调方法,8B小模型媲美GPT-4o!科学问题正确率提高28%

清华大学与加州大学圣地亚哥分校(UCSD)的研究人员最近提出了一种创新的微调方法,该方法通过智能工具使用适应,显著提高了大型语言模型(LLM)在解决科学问题时的性能。这种方法不仅在解决复杂科学问题上取得了显著进展,还保持了模型在解决简单问题上的基本推理能力。 传统的方法中,LLM在解决...

文章 2024-12-10 来自:开发者社区

InternVL 2.5,首个MMMU超过70%的开源模型,性能媲美GPT-4o

01引言 近期Internvl2.5发布,性能与GPT-4o和Claude-3.5-sonnet等领先的商业模型相媲美,成为首个在MMMU上超过70%的开源模型,通过链式思考(CoT)推理实现了3.7个百分点的提升,展示了强大的测试时间可扩展性潜力。InternVL 2.5是基于InternVL 2.0发展而来,通过增强训练和测试策略以及提高数据质量来进一步提升性能。该模型在多个方面进行...

InternVL 2.5,首个MMMU超过70%的开源模型,性能媲美GPT-4o
阿里云文档 2024-09-20

如何训练GPT-2模型并生成文本

本文介绍如何使用GPU云服务器,使用Megatron-DeepSpeed框架训练GPT-2模型并生成文本。

文章 2023-05-24 来自:开发者社区

斯坦福70亿参数开源模型媲美GPT-3.5,100美元即可复现

机器之心编辑部学界或许没有业界的算力优势,但可以使用 self-instruct 方法直面大规模语言模型的挑战。随着大规模语言模型的日渐强大,人们对 AI 模型提出了伦理道德方面的更高要求。业界在模型规模扩展方面具有算力资源优势,但要想让模型更规范、可靠,需要学术界的努力。近日,斯坦福基于 Meta 的 LLaMA 7B 模型微调出一个新模型 Alpaca。该研究让 OpenAI 的 text-....

斯坦福70亿参数开源模型媲美GPT-3.5,100美元即可复现

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。