文章 2024-09-06 来自:开发者社区

小钢炮进化,MiniCPM 3.0 开源!4B参数超GPT3.5性能,无限长文本,超强RAG三件套!模型推理、微调实战来啦!

旗舰端侧模型面壁「小钢炮」系列进化为全新 MiniCPM 3.0 基座模型,再次以小博大,以 4B 参数,带来超越 GPT-3.5 的性能。并且,量化后仅 2GB 内存,端侧友好。 小编敲黑板,本次发布重点: 无限长文本,榜单性能强,超长文本也不崩; 性能比肩 GPT-4o 的端侧强大 Function Calling; 超强 RAG 三件套,中文...

小钢炮进化,MiniCPM 3.0 开源!4B参数超GPT3.5性能,无限长文本,超强RAG三件套!模型推理、微调实战来啦!
文章 2024-08-03 来自:开发者社区

公理训练让LLM学会因果推理:6700万参数模型比肩万亿参数级GPT-4

最近,一篇关于语言模型(LLM)的论文引起了广泛关注。该论文提出了一种名为"公理训练"的新方法,通过该方法,一个只有6700万参数的LLM能够学会因果推理,并在多个任务上表现出与万亿参数级的GPT-4相媲美的性能。 论文中,研究人员首先指出了因果推理在现实世界中的重要性。他们指出&#...

文章 2024-04-24 来自:开发者社区

微软Phi-3,3.8亿参数能与Mixtral 8x7B和GPT-3.5相媲美,量化后还可直接在IPhone中运行

Phi-3系列 Phi-3是一系列先进的语言模型,专注于在保持足够紧凑以便在移动设备上部署的同时,实现高性能。Phi-3系列包括不同大小的模型: Phi-3-mini(38亿参数) - 该模型在3.3万亿个令牌上进行训练,设计得足够小,可以在现代智能手机上运行。尽管体积紧凑,它的性能却可与更大的模型如Mixtral 8x7B和GPT-3.5相媲美,例如在MMLU基准测试中达到69%,在M...

微软Phi-3,3.8亿参数能与Mixtral 8x7B和GPT-3.5相媲美,量化后还可直接在IPhone中运行
文章 2023-08-08 来自:开发者社区

150亿参数、一次通过率超60%,华为代码能力超GPT3.5的大模型来了

这次,华为代码生成大模型盘古 Coder2 采用了一种类似于 RLHF(基于人类反馈的强化学习)的框架,相较前代实现了更高的一次生成通过率。随着大模型成为 AI 开发新范式,将大语言模型集成至编程领域、完成代码生成与补全任务成为重要趋势之一。业界出现了一些引人瞩目的代码大模型,比如 OpenAI 的 CodeX、...

150亿参数、一次通过率超60%,华为代码能力超GPT3.5的大模型来了
文章 2023-05-31 来自:开发者社区

世界的参数倒影:为何GPT通过Next Token Prediction可以产生智能(1)

GPT是鹦鹉学舌,还是真的具有类人智能?带你一探究竟。「两位说英语的荒岛幸存者被困在相邻岛屿上,中间隔着危险水域。幸运的是,他们发现了前任居民留下的电报机,电报机通过一条水下电缆连接起来,他们能够通过电报传递信息。但是,他们不知道的是:附近水域里,生活着一个具备超级智能的...

世界的参数倒影:为何GPT通过Next Token Prediction可以产生智能(1)
文章 2023-05-31 来自:开发者社区

世界的参数倒影:为何GPT通过Next Token Prediction可以产生智能(2)

拼图游戏:目前已知的一些事实碎片若把 LLM 习得 AGI 智能比做一个拼图游戏的话,只能说目前我们手上只有一些有关它的支离破碎的拼图碎片,还未能一睹这种机器智能的全貌。本部分从几个不同的角度,收集并介绍现有相关研究的研究结论。GPT 模型对知识的提取过程我们先来看一下,假设 LLM 模型训练好了,在使用时输入 ...

世界的参数倒影:为何GPT通过Next Token Prediction可以产生智能(2)
文章 2023-05-31 来自:开发者社区

世界的参数倒影:为何GPT通过Next Token Prediction可以产生智能(3)

冰山之下:回路竞争猜想(Circuit Competition Conjecture, CCC)如果我们把目前已知拼图碎片所体现出的点滴证据拼合起来,我感觉隐藏在冰山之下的原理部分,就若隐若现展现在我们面前。本部分在已知研究结论基础上作出一些推论,给出「回路竞争猜想(CC 猜想)」&#...

世界的参数倒影:为何GPT通过Next Token Prediction可以产生智能(3)
文章 2023-05-31 来自:开发者社区

世界的参数倒影:为何GPT通过Next Token Prediction可以产生智能(4)

「回路竞争」视角下的 In Context Learning 及 Chain of Thought (COT)从回路竞争的视角看 ICL,这里可能涉及到两种回路:任务回路以及 Attention 回路,两者竞争或合作,来决定 ICL 任务的表现,COT 是一种特殊的 ICL,机制应类似。我们先看下任务回路的作用&...

世界的参数倒影:为何GPT通过Next Token Prediction可以产生智能(4)
文章 2023-05-24 来自:开发者社区

斯坦福70亿参数开源模型媲美GPT-3.5,100美元即可复现

机器之心编辑部学界或许没有业界的算力优势,但可以使用 self-instruct 方法直面大规模语言模型的挑战。随着大规模语言模型的日渐强大,人们对 AI 模型提出了伦理道德方面的更高要求。业界在模型规模扩展方面具有算力资源优势,但要想让模型更规范、可靠,需要学术界的努力。近日,斯坦福基于 Meta 的 LLaMA 7B 模型...

斯坦福70亿参数开源模型媲美GPT-3.5,100美元即可复现
文章 2023-05-16 来自:开发者社区

发布日志记录、公开所有代码,Meta开放1750亿参数大模型,媲美GPT-3

OPT-175B,使人工智能更加开放和可复制。Meta AI 在昨天公布的一篇论文可谓是炸开了锅,论文网站 paperswithcode 热搜榜第一,众多 AI 大佬推荐:LSTM 提出者和奠基者,奥地利人工智能高级研究所(IARAI)创始人 Sepp Hochreiter 教授就在推特上进行了宣传...

发布日志记录、公开所有代码,Meta开放1750亿参数大模型,媲美GPT-3

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。