文章 2025-10-03 来自:开发者社区

09_LLM评估方法:如何判断模型性能的好坏

引言:为什么LLM评估如此重要? 在2025年的今天,大语言模型(LLM)已经成为人工智能领域的核心技术,它们能够理解和生成人类语言,执行复杂的认知任务。然而,随着模型能力的不断提升,如何科学、全面地评估这些模型的性能,成为了一个至关重要的问题。 LLM开发流程: 训练 ...

09_LLM评估方法:如何判断模型性能的好坏
文章 2025-08-11 来自:开发者社区

从原型到生产:LLM评估框架选型的黄金法则

本文较长,建议点赞收藏,以免遗失。文中还会放一些技术文档,方便大家更好的学习。 随着企业级LLM应用复杂度提升,构建科学评估体系成为工程落地核心瓶颈。今天我将系统拆解多轮对话、RAG、智能体三类场景的评估方案,并对比主流框架的工程适配性,希望对各位有所帮助。 一、评估范式演进:从传统指标到系统化...

从原型到生产:LLM评估框架选型的黄金法则
文章 2025-07-20 来自:开发者社区

AI-Compass LLM评估框架:CLiB中文大模型榜单、OpenCompass司南、RAGas、微软Presidio等构建多维度全覆盖评估生态系统

AI-Compass LLM评估框架:CLiB中文大模型榜单、OpenCompass司南、RAGas、微软Presidio等构建多维度全覆盖评估生态系统 AI-Compass 致力于构建最全面、最实用、最前沿的AI技术学习和实践生态,通过六大核心模块的系统化组织,为不同层次的学习者和开发者提供从完整学习路径。 github地址:AI-Compass:https://github.com/ti...

 AI-Compass LLM评估框架:CLiB中文大模型榜单、OpenCompass司南、RAGas、微软Presidio等构建多维度全覆盖评估生态系统
文章 2024-11-14 来自:开发者社区

多模态大模型LLM、MLLM性能评估方法

针对多模态大模型(LLM)和多语言大模型(MLLM)的性能评估方法,以下是一些关键的评估方法和标准: 模态融合率(MIR): 中国科学技术大学提出了模态融合率(MIR)来高效评估多模态预训练对齐质量。MIR能够准确对应模型在有监督微调后在下游测...

文章 2024-11-01 来自:开发者社区

社区供稿 |【8卡从零训练Steel-LLM】微调探索与评估

01前言 今年二月份,机缘巧合,朋友搞到了一台A100 80G SXM,机器放着也是怪浪费的,便萌生了从零预训练一个LLM的想法。一台机器不算多,并且最多可能也就用个3-4个月,掐指一算,训个1B左右的模型,1T左右的数据应该差不多。好景不长,机器用了一个多月吧,就被收回了,当时模型才训到了20k step(预计要训练100k step)。天无绝人之路,真的非常感谢某top 3老师的资助...

社区供稿 |【8卡从零训练Steel-LLM】微调探索与评估
文章 2024-07-11 来自:开发者社区

谷歌DeepMind全新ToT基准:全面评估LLM时间推理能力

谷歌DeepMind的研究人员最近提出了一个新的名为ToT(Test of Time)的基准,用于全面评估大型语言模型(LLMs)的时间推理能力。这项研究旨在填补当前研究的空白,即缺乏能够有效衡量LLMs在各种时间推理任务中表现的统一标准。 ToT基准由两个主要任务组成:ToT-Semantic和T...

文章 2024-05-30 来自:开发者社区

LLM 大模型学习必知必会系列(十一):大模型自动评估理论和实战以及大模型评估框架详解

LLM 大模型学习必知必会系列(十一):大模型自动评估理论和实战以及大模型评估框架详解 0.前言 大语言模型(LLM)评测是LLM开发和应用中的关键环节。目前评测方法可以分为人工评测和自动评测,其中,自动评测技术相比人工评测来讲,具有效率高、一致性好、可复现、鲁棒性好等特点,逐渐成为业界研究的重点。 模型的自动评测技术可以分为rule-based和model-based两大类: ru...

LLM 大模型学习必知必会系列(十一):大模型自动评估理论和实战以及大模型评估框架详解
文章 2024-05-25 来自:开发者社区

【LangChain系列】第九篇:LLM 应用评估简介及实践

[toc] 随着语言模型(LLMs)的不断进步,它们的应用变得越来越复杂和精密。随着这种复杂性的增加,评估这些基于LLM的应用程序的性能和准确性也变得更具挑战性。在这篇博客文章中,我们将深入探讨LLM应用评估的世界,探讨可以帮助您评估和改进模型性能的框架和工具。 一、创建QA应用程序 import os fro...

文章 2024-05-06 来自:开发者社区

【大模型】描述一些评估 LLM 性能的技术

评估LLM性能的技术 在评估大语言模型(LLM)的性能时,需要使用一系列的评估指标和技术来衡量模型的表现。这些评估技术包括传统的语言模型评估指标,以及针对特定任务和应用场景设计的评估方法。下面我们将详细分析一些评估LLM性能的技术。 困惑度(Perplexity) 困惑度是评估语言模型性能的一种常用指标,用于衡量模型对输入序列的预测能力。困惑度越低表示模型对输入序列的预测越准确,模型的性能...

【大模型】描述一些评估 LLM 性能的技术
问答 2024-03-12 来自:开发者社区

有关于 ModelScope llm的用验证集和测试集评估微调后模型的文档吗?

有关于 ModelScope llm的用验证集和测试集评估微调后模型的文档吗?

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。