文章 2024-08-06 来自:开发者社区

ACL 2024:对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格

在人工智能领域,大型语言模型(LLMs)在各种数学推理基准测试中取得了令人印象深刻的成绩。然而,关于这些模型是否真正理解和应用数学知识,还是仅仅依赖于数学推理的捷径,存在着越来越多的争议。为了评估LLMs在数学推理方面的鲁棒性,香港大学和腾讯AI实验室的研究人员引入了一种名为GSM-Plus的对抗性...

文章 2024-08-02 来自:开发者社区

VLM集体失明?视力测试惨败,GPT-4o、Claude 3.5全都不及格

近日,一篇名为《视觉语言模型是盲人》的论文引起了广泛关注。这篇论文由来自奥本大学和阿尔伯塔大学的研究人员共同撰写,对当前最先进的视觉语言模型(VLMs)进行了全面的视觉能力测试。 论文中指出,尽管VLMs在许多图像理解基准测试中表现出色,但它们在7个对人类来说非常简单的视觉任务上却表现得非常糟糕。这些任务包括判断...

文章 2023-08-07 来自:开发者社区

达摩院发布大模型测试基准:GPT-4勉强及格,其他模型悉数落败

阿里巴巴达摩院多语言 NLP 团队发布了首个多语言多模态测试基准 M3Exam,共涵盖 12317 道题目。随着大模型的发展,尤其是近来各种开源大模型的发布,如何对各种模型进行充分并且准确的评估变得越来越重要。其中一个越来越受到认可的方向就是利用人类考题来检验模型,从而可以测试模型的知识及推理能力。例如对于英文模型,MMLU ...

达摩院发布大模型测试基准:GPT-4勉强及格,其他模型悉数落败
文章 2023-06-29 来自:开发者社区

连GPT-4都考不及格,17个大模型悉数落败,因果推理太难了

大模型的涌现能力经得起推敲吗?自 ChatGPT 发布以来,大模型的涌现能力一直被人们称赞,包括强大的语言理解能力、生成能力、逻辑推理能力等。然而,最近一项研究表明,大模型在因果推理方面普遍性能很差,连 GPT-4 都不及格。这项研究是由来自马克斯・普朗克研究所、苏黎世联邦理工学院(ETHÿ...

连GPT-4都考不及格,17个大模型悉数落败,因果推理太难了

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。