文章 2025-02-27 来自:开发者社区

D1net阅闻 | 谷歌DeepMind研究发现LLM新特性

(来源:企业网D1net) 谷歌DeepMind研究发现LLM新特性 谷歌团队和LSE的研究发现,LLM能在类似游戏场景中做出避免痛苦的权衡选择,虽不能证明其有感知能力,但提供了测试框架。 全球AI治理合作加强,61国签署巴黎人工智能宣言 在巴黎人工智能行动峰会上,包括中国、法国在内的61国签署了巴黎人工智能宣言,呼吁加强A...

文章 2025-02-18 来自:开发者社区

DeepMind发布Matryoshka(套娃)量化:利用嵌套表示实现多精度LLM的低比特深度学习

本文将介绍 Google DeepMind 提出的 Matryoshka 量化技术,该技术通过从单个大型语言模型 (LLM) 实现多精度模型部署,从而革新深度学习。我们将深入研究这项创新技术如何提高 LLM 的效率和准确性。 随着深度学习模型在规模和复杂度上持续增长,效率和灵活性变得至关重要。量化作为一种成熟的技术,通过降低权重和激活的比特精度来减少模型大小和推理时间。传统的量化方法通常需要为每....

DeepMind发布Matryoshka(套娃)量化:利用嵌套表示实现多精度LLM的低比特深度学习
文章 2024-07-11 来自:开发者社区

谷歌DeepMind全新ToT基准:全面评估LLM时间推理能力

谷歌DeepMind的研究人员最近提出了一个新的名为ToT(Test of Time)的基准,用于全面评估大型语言模型(LLMs)的时间推理能力。这项研究旨在填补当前研究的空白,即缺乏能够有效衡量LLMs在各种时间推理任务中表现的统一标准。 ToT基准由两个主要任务组成:ToT-Semantic和T...

文章 2024-06-17 来自:开发者社区

To Believe or Not to Believe?DeepMind新研究一眼看穿LLM幻觉

最近,DeepMind的研究人员在大型语言模型(LLMs)的不确定性量化方面取得了一项重要突破。这项研究旨在帮助我们确定一个查询的响应中的不确定性何时会很大。它同时考虑了认知不确定性和偶然不确定性,前者源于对基本事实或语言的缺乏了解,而后者则源于不可减少的随机性,例如多个可能的答案。 该研究的新颖之处在于...

文章 2024-03-06 来自:开发者社区

RNN又行了!DeepMind新发布的Griffin可以与同级别的LLM性能相当

模型架构 该架构有三个主要组件:残差块(residual block)、MLP块和时序混合块(temporal-mixing block)。残差块和MLP块在不同模型中保持一致,而时序混合块有三种类型:全局多查询注意力(global Multi-Query Attention,MQA)、局部MQA和一种新颖的循环块。 残差块:受到预归一化Transformer的启发,通过多层处理输入序列...

RNN又行了!DeepMind新发布的Griffin可以与同级别的LLM性能相当

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。