文章 2025-02-26 来自:开发者社区

预训练语言模型:从BERT到GPT,NLP的新纪元

自然语言处理(NLP)在过去几年中经历了翻天覆地的变化,而这一变化的催化剂无疑是预训练语言模型(Pre-trained Language Models, PLMs)的崛起。从BERT到GPT,这些模型不仅在学术研究中取得了突破性进展,也在工业界得到了广泛应用。本文将深入探讨预训练语言模型的原理、发展...

文章 2024-07-13 来自:开发者社区

`transformers`库是Hugging Face提供的一个开源库,它包含了大量的预训练模型和方便的API,用于自然语言处理(NLP)任务。在文本生成任务中,`transformers`库提供了许多预训练的生成模型,如GPT系列、T5、BART等。这些模型可以通过`pipeline()`函数方便地加载和使用,而`generate()`函数则是用于生成文本的核心函数。

一、引言 transformers库是Hugging Face提供的一个开源库,它包含了大量的预训练模型和方便的API,用于自然语言处理(NLP)任务。在文本生成任务中,transformers库提供了许多预训练的生成模型,如GPT系列、T5、BART等。这些模型可以通过pipeline()函数方便地加载和使用&...

问答 2024-05-30 来自:开发者社区

预训练和推理在GPT中分别指什么?

预训练和推理在GPT中分别指什么?

文章 2023-07-18 来自:开发者社区

大语言模型的预训练[2]:GPT、GPT2、GPT3、GPT3.5、GPT4相关理论知识和模型实现、模型应用以及各个版本之间的区别详解

大语言模型的预训练[2]:GPT、GPT2、GPT3、GPT3.5、GPT4相关理论知识和模型实现、模型应用以及各个版本之间的区别详解 1.GPT 模型 1.1 GPT 模型简介 在自然语言处理问题中,可从互联网上下载大量无标注数据,而针对具体问题的有标注数据却非常少,GPT 是一种半监督学习方法,它致力于用大量无标注数据让模型学习 “常识”,以缓解标注信息不足的问题。其具体方法是在针对有...

大语言模型的预训练[2]:GPT、GPT2、GPT3、GPT3.5、GPT4相关理论知识和模型实现、模型应用以及各个版本之间的区别详解
文章 2023-05-26 来自:开发者社区

深度学习进阶篇-预训练模型[3]:XLNet、BERT、GPT,ELMO的区别优缺点,模型框架、一些Trick、Transformer Encoder等原理详解

深度学习进阶篇-预训练模型[3]:XLNet、BERT、GPT,ELMO的区别优缺点,模型框架、一些Trick、Transformer Encoder等原理详解 1.XLNet:Generalized Autoregressive Pretraining for Language Understanding 1.1. 从AR和AE模型到XLNet模型 自回归模型(Autoregressiv...

深度学习进阶篇-预训练模型[3]:XLNet、BERT、GPT,ELMO的区别优缺点,模型框架、一些Trick、Transformer Encoder等原理详解
文章 2023-05-25 来自:开发者社区

深度学习进阶篇-预训练模型[2]:Transformer-XL、Longformer、GPT原理、模型结构、应用场景、改进技巧等详细讲解

深度学习进阶篇-预训练模型[2]:Transformer-XL、Longformer、GPT原理、模型结构、应用场景、改进技巧等详细讲解 1.Transformer-XL: Attentive Language Models Beyonds a Fixed-Length Context 1.1. Transformer-XL简介 在正式讨论 Transformer-XL 之前,我们先来看看...

深度学习进阶篇-预训练模型[2]:Transformer-XL、Longformer、GPT原理、模型结构、应用场景、改进技巧等详细讲解
文章 2023-05-19 来自:开发者社区

7 Papers & Radios | 无需注意力的预训练;被GPT带飞的In-Context Learning

本周重要论文包括当预训练不需要注意力时,扩展到 4096 个 token 也不成问题;被 GPT 带飞的 In-Context Learning 背后是模型在秘密执行梯度下降。目录:ClimateNeRF: Physically-based Neural Rendering for Extreme Climate SynthesisPretraining Without AttentionOne....

7 Papers & Radios | 无需注意力的预训练;被GPT带飞的In-Context Learning
文章 2023-05-16 来自:开发者社区

今年英语高考,CMU用重构预训练交出134高分,大幅超越GPT3(3)

高考实验:迈向人类水平的 AI该研究收集了 10 份高考英语试卷,包括 2018 年国考 I/III、2019 年国考 I/II/III、2020 年国考 I/II/III、2021 年全国卷 A/B。这些试卷遵循相同的题型,他们将所有考试题型分为以下七个子类别,如表 7 所示:每篇高考英语试卷满分 150 分。听力、完形填空、阅读、写作分别占 30、45、40、35。通常,写作部分是主观的,需....

今年英语高考,CMU用重构预训练交出134高分,大幅超越GPT3(3)
文章 2023-05-16 来自:开发者社区

今年英语高考,CMU用重构预训练交出134高分,大幅超越GPT3

本文提出的重构预训练(reStructured Pre-training,RST),不仅在各种 NLP 任务上表现亮眼,在高考英语上,也交出了一份满意的成绩。我们存储数据的方式正在发生变化,从生物神经网络到人工神经网络,其实最常见的情况是使用大脑来存储数据。随着当今可用数据的不断增长,人们寻求用不同的外部设备存储数据,如硬盘驱动器或云存储。随着深度学习技术的兴起,另一种有前景的存储技术已经出现,....

今年英语高考,CMU用重构预训练交出134高分,大幅超越GPT3
文章 2022-06-13 来自:开发者社区

【NLP】(task3下)预训练语言模型——GPT-2

学习总结学习了GPT-2以及对其父模型(只有 Decoder 的 Transformer),复习其中带mask的Self Attention(原文教程是有这玩意详细讲解的,下面暂时省略了)。注意GPT的Predict Next Token的过程:GPT拿到一笔训练资料的时候,先给它BOS这个token,然后GPT output一个embedding,然后接下来,你用这个embedding去预测下....

【NLP】(task3下)预训练语言模型——GPT-2

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。