7 Papers & Radios | 无残差连接训练深度transformer;DeepMind写代码AI登Science封面
本周主要论文包括:首次无残差连接或归一化层也能训练深度 Transformer 的探索性研究,以及 DeepMind携其写代码 AI AlphaCode 登上了 Science 封面,写代码能力不输程序员。目录:Competition-level code generation with AlphaCodeInverse scaling can become U-shaped FedALA: A....
PyTorch创始人:Transformer太火很不好,AI易撞墙
Souminth Chintala 担心 Transformer 可能导致人工智能碰壁。2017 年 Transformer 首次亮相,便迅速在 AI 领域扩散开来,CV、NLP 等任务都有其身影,越来越多的研究人员投入其中。要说 Transformer 有多厉害,比如 OpenAI 重磅推出的 GPT-3,就是基于 Transformer 实现的。至于传播速度方面,短短 5 年,Transfo....
CVPR 2022 | 视频Transformer自监督预训练新范式,复旦、微软云AI实现视频识别新SOTA
机器之心编辑部 复旦大学、微软 Cloud+AI 的研究者将视频表征学习解耦为空间信息表征学习和时间动态信息表征学习,提出了首个视频 Transformer 的 BERT 预训练方法 BEVT。该研究已被 CVPR 2022 接收。 在自然语言处理领域,采用掩码预测方式的 BERT 预训练助力 Transformer 在各项任务上取得了巨大成功。近期,因为 Transforme...
纯MLP在下游任务上欠佳?Meta AI等提出稀疏MLP,超越transformer
来自 Meta AI 和纽约州立大学布法罗分校的研究者分析了 MLP 在表达能力方面的局限性,并提出了在特征和输入(token)维度上带有混合专家系统(MoE)的稀疏激活 MLP。作为基于注意力模型的替代方案,纯 MLP 架构吸引了越来越多的关注。在 NLP 中,gMLP 等近期工作表明,纯 MLP 在语言建模方面可以达到与 transformer 相当的性能,但在下游任务中弱于 transfo....
Transformer将在AI领域一统天下?现在下结论还为时过早
从自然语言处理任务起家,又在图像分类和生成领域大放异彩,所向披靡的 Transformer 会成为下一个神话吗?想象一下你走进一家本地的五金店,在货架上看到一种新型的锤子。你听说过这种锤子:它比其他锤子敲得更快、更准确,而且在过去的几年里,在大多数用途中,它已经淘汰了许多其他锤子。此外,通过一些调整,比如这里加一个附件,那里拧一个螺丝,这种锤子还能变成一把锯,其切割速度能媲美其他任何替代品。一些....
用Transformer定义所有ML模型,特斯拉AI总监Karpathy发推感叹AI融合趋势
特斯拉 AI 总监 Andrej Karpathy 连发多条推文表示,AI 不同领域(视觉、语音、自然语言等)正在打通,融合速度令人惊叹。 今日,特斯拉 AI 总监、Autopilot Vision 团队领导人 Andrej Karpathy 在推特上发文,对 AI 领域正在进行中的融合(consolidation)表示惊叹。他表示,「10 年前,视觉、语音、自然语言、强化学习等都是完全...
Hinton坐阵!斯坦福CS25 Transformer专题讲座更新:多位AI大佬齐聚
【新智元导读】斯坦福大牛Christopher Manning开设的Transformer联合讲座课程更新啦!这期请来的是Hinton大神。图灵奖得主、深度学习教父Geoffrey Hinton在斯坦福线上开课啦?本课程是斯坦福大学计算机科学家Christopher Manning教授开设的CS25: Transformers United联合讲座课程。课程邀请了学术界和产业界关于Transfo....
一种架构来完成所有任务—Transformer架构正在以一己之力统一AI江湖
目录一种架构来完成所有任务—Transformer架构正在以一己之力统一AI江湖一种架构来完成所有任务—Transformer架构正在以一己之力统一AI江湖语言模型,图像、视频方面这一年都被Transformer架构同时刷新了模型规模和性能基准。这里还是要说到Transformer的各类变体在这一年中大放异彩,同时在NLP和CV领域频频刷榜。近些年,transformer架构逐渐将其影响范围扩展....
Transformer原理解析——一种Open AI和DeepMind都在用的神经网络架构
Transformer模型是一种日益流行的神经网络结构。它最近被OpenAI用于他们的语言模型中。与此同时,近期也被DeepMind用于它们的程序“星际争霸”中击败了一名顶级职业星际玩家。Transformer模型的开发是为了解决序列转换及神经机器翻译问题。这意味着可以解决任何sequence to sequence问题,例如语音识别、文本到语音转换等。序列转换。输入用绿色表示,模型用蓝色表示,....
本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。
产品推荐
阿里云机器学习平台PAI
阿里云机器学习PAI(Platform of Artificial Intelligence)面向企业及开发者,提供轻量化、高性价比的云原生机器学习平台,涵盖PAI-iTAG智能标注平台、PAI-Designer(原Studio)可视化建模平台、PAI-DSW云原生交互式建模平台、PAI-DLC云原生AI基础平台、PAI-EAS云原生弹性推理服务平台,支持千亿特征、万亿样本规模加速训练,百余落地场景,全面提升工程效率。
+关注