文章 2025-10-03 来自:开发者社区

23_Transformer架构详解:从原理到PyTorch实现

引言 Transformer架构自2017年Google发表的论文《Attention Is All You Need》中提出以来,彻底改变了深度学习特别是自然语言处理领域的格局。在短短几年内,Transformer已成为几乎所有现代大型语言模型(LLM)的基础架构,包括BERT、GPT系列、T5等革命性模型。与传统的RNN和...

23_Transformer架构详解:从原理到PyTorch实现
文章 2025-09-25 来自:开发者社区

Transformer自回归关键技术:掩码注意力原理与PyTorch完整实现

掩码注意力(Causal Attention)是生成式模型的核心技术,它传统自注意力机制有根本的不同,掩码注意力限制模型只能关注当前位置之前的tokens,确保了自回归生成的因果性。 自注意力的掩码 自注意力机制在Transformer编码器和BERT等模型中广泛应用。这种机制的特点是每个token都能访问序列中的所有其他tokens,包括前面和后面的位置。这种双向注意力让模型能够充分利用上下文....

Transformer自回归关键技术:掩码注意力原理与PyTorch完整实现
文章 2025-09-13 来自:开发者社区

Neural ODE原理与PyTorch实现:深度学习模型的自适应深度调节

对于神经网络来说,我们已经习惯了层状网络的思维:数据进来,经过第一层,然后第二层,第三层,最后输出结果。这个过程很像流水线,每一步都是离散的。 但是现实世界的变化是连续的,比如烧开水,谁的温度不是从30度直接跳到40度,而是平滑的上生。球从山坡滚下来速度也是渐渐加快的。这些现象背后都有连续的规律在支配。 微分方程就是描述这种连续变化的语言。它不关心某个时刻的具体数值,而是告诉你"变化的速度"。比....

Neural ODE原理与PyTorch实现:深度学习模型的自适应深度调节
文章 2025-03-31 来自:开发者社区

9个主流GAN损失函数的数学原理和Pytorch代码实现:从经典模型到现代变体

生成对抗网络(GANs)的训练效果很大程度上取决于其损失函数的选择。本研究首先介绍经典GAN损失函数的理论基础,随后使用PyTorch实现包括原始GAN、最小二乘GAN(LS-GAN)、Wasserstein GAN(WGAN)及带梯度惩罚的WGAN(WGAN-GP)在内的多种损失函数。生成对抗网络(GANs)的工作原理堪比一场精妙的艺术创作过程——生成器(Generator)扮演创作者角色,不....

9个主流GAN损失函数的数学原理和Pytorch代码实现:从经典模型到现代变体
文章 2025-01-03 来自:开发者社区

深度强化学习中SAC算法:数学原理、网络架构及其PyTorch实现

深度强化学习是人工智能领域最具挑战性的研究方向之一,其设计理念源于生物学习系统从经验中优化决策的机制。在众多深度强化学习算法中,软演员-评论家算法(Soft Actor-Critic, SAC)因其在样本效率、探索效果和训练稳定性等方面的优异表现而备受关注。 传统的深度强化学习算法往往在探索-利用权衡、训练稳定性等方面面临挑战。SAC算法通过引入最大熵强化学习框架,在策略优化过程中自动调节探索程....

深度强化学习中SAC算法:数学原理、网络架构及其PyTorch实现
文章 2024-07-20 来自:开发者社区

多任务高斯过程数学原理和Pytorch实现示例

高斯过程其在回归任务中的应用我们都很熟悉了,但是我们一般介绍的都是针对单个任务的,也就是单个输出。本文我们将讨论扩展到多任务gp,强调它们的好处和实际实现。 本文将介绍如何通过共区域化的内在模型(ICM)和共区域化的线性模型(LMC),使用高斯过程对多个相关输出进行建模。 多任务高斯过程 高斯过程是回归和分类任务中的一个强大工具,提供了一种非参数方式来定义函数的分布。当处理多个相关输出...

多任务高斯过程数学原理和Pytorch实现示例
文章 2023-06-20 来自:开发者社区

RNN、CNN、RNN、LSTM、CTC算法原理,pytorch实现LSTM算法

1. CNN算法CNN算法原理2. RNN算法最早CNN算法和普通算法类似,都是从由一个输入得到另一个输出,不同的输入之间没有联系,无法实现一些场景(例如:对电影每个时间点的时间类型进行分类,因为时间是连续的,每一个时间点都是由前面的时间点影响的,也就是说输入之间有关联)2.1 典型的序列数据文章里文字内容语音里音频内容股票市场中价格走势2.2 基本原理RNN 跟传统神经网络最大的区别在于每次都....

RNN、CNN、RNN、LSTM、CTC算法原理,pytorch实现LSTM算法
文章 2023-05-23 来自:开发者社区

部署教程 | ResNet原理+PyTorch复现+ONNX+TensorRT int8量化部署

1简介这是【集智书童】第一次录制视频的PPT课件,这里公开给大家,希望能够帮助大家在深度学习模型部署的道路上越走越远,让我们设计和训练的人工智能算法能够真正的落地。一下是所有的PPT内容,由于时间问题就直接截图给大家:

部署教程 | ResNet原理+PyTorch复现+ONNX+TensorRT int8量化部署
文章 2022-11-12 来自:开发者社区

【13】变分自编码器(VAE)的原理介绍与pytorch实现

1.VAE的设计思路VAE作为一个生成模型,其基本思路是很容易理解的:把一堆真实样本通过编码器网络变换成一个理想的数据分布,然后这个数据分布再传递给一个解码器网络,得到一堆生成样本,生成样本与真实样本足够接近的话,就训练出了一个自编码器模型。那VAE(变分自编码器)就是在自编码器模型上做进一步变分处理,使得编码器的输出结果能对应到目标分布的均值和方差,如下图所示,具体的方法和思想在后文会介绍:V....

【13】变分自编码器(VAE)的原理介绍与pytorch实现
文章 2022-02-17 来自:开发者社区

空间金字塔池化(Spatial Pyramid Pooling, SPP)原理和代码实现(Pytorch)

想直接看公式的可跳至第三节 3.公式修正 一、为什么需要SPP 首先需要知道为什么会需要SPP。 我们都知道卷积神经网络(CNN)由卷积层和全连接层组成,其中卷积层对于输入数据的大小并没有要求,唯一对数据大小有要求的则是第一个全连接层,因此基本上所有的CNN都要求输入数据固定大小,例如著名的VGG模型则要求输入数据大小是 (224*224) 。 固定输入数据大小有两个问题: 1.很多场景所得到.....

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

相关镜像