文章 2025-01-10 来自:开发者社区

NeurIPS 2024最佳论文,扩散模型的创新替代:基于多尺度预测的视觉自回归架构

本文将详细解读NeurIPS 2024最佳论文:"Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction(视觉自回归建模:基于下一尺度预测的可扩展图像生成)"。 该论文提出了视觉自回归建模(Visual Autoregressive Modeling,VAR)方法,在图像生成领域实现了....

NeurIPS 2024最佳论文,扩散模型的创新替代:基于多尺度预测的视觉自回归架构
文章 2024-03-08 来自:开发者社区

全面超越ViT,美团、浙大等提出视觉任务统一架构VisionLLAMA

在人工智能的浪潮中,视觉任务的处理一直是技术进步的重要推动力。传统的卷积神经网络(CNN)在图像识别、分割和生成等领域取得了令人瞩目的成就,但随着Transformer模型在自然语言处理(NLP)领域的突破,人们开始期待这种基于自注意力机制的架构能在视觉领域同样大放异彩。在这样的背景下,美团、浙江大学和Moonshot AI的研究团队联手提出了VisionLLaMA,这是一种全新的视觉Trans....

全面超越ViT,美团、浙大等提出视觉任务统一架构VisionLLAMA
文章 2023-10-14 来自:开发者社区

美团视觉GPU推理服务部署架构优化实战

博主 libin9iOak带您 Go to New World.✨ 个人主页——libin9iOak的博客 《面试题大全》 文章图文并茂生动形象简单易学!欢迎大家来踩踩~ 《IDEA开发秘籍》学会IDEA常用操作,工作效率翻倍~ 希望本文能够给您带来一定的帮助文章粗浅,敬请批评指正!摘要1.视觉模型服务部署面临的问题与挑战2.GPU服务性能优化实践案例3.通用高效的推理服务部署架构1.视觉模型.....

美团视觉GPU推理服务部署架构优化实战
文章 2023-05-15 来自:开发者社区

一文梳理视觉Transformer架构进展:与CNN相比,ViT赢在哪儿?(2)

Scaling 视觉 Transformer深度学习和规模是相关的。事实上,规模是很多 SOTA 实现的关键因素。在这项研究中,来自 Google Brain Research 的作者训练了一个稍微修改过的 ViT 模型,它有 20 亿个参数,并在 ImageNet 上达到了 90.45 % 的 top-1 准确率。这种过度参数化的一般化模型在少样本学习上进行了测试,每类只有 10 个示例情况下....

一文梳理视觉Transformer架构进展:与CNN相比,ViT赢在哪儿?(2)
文章 2023-05-15 来自:开发者社区

一文梳理视觉Transformer架构进展:与CNN相比,ViT赢在哪儿?(1)

Transformer 近年来已成为视觉领域的新晋霸主,这个来自 NLP 领域的模型架构在 CV 领域有哪些具体应用?。Transformer 作为一种基于注意力的编码器 - 解码器架构,不仅彻底改变了自然语言处理(NLP)领域,还在计算机视觉(CV)领域做出了一些开创性的工作。与卷积神经网络(CNN)相比,视觉 Transformer(ViT)依靠出色的建模能力,在 ImageNet、COCO....

一文梳理视觉Transformer架构进展:与CNN相比,ViT赢在哪儿?(1)
文章 2017-02-16 来自:开发者社区

视觉中国:基于容器云的同城双活微服务架构上云实践

本文正在参加“最佳上云实践”评选,来给我们投票吧:https://yq.aliyun.com/activity/158(编号7) 视觉中国集团(Visual China Group)创立于2000年6月,是中国领先的视觉影像产品和服务提供商。视觉中国集团是以“视觉创造价值,视觉服务中国”为愿景的A股唯一互联网文化创意上市公司(股票代号000681,股票简称:视觉中国)。视觉中国集团以“视觉内容与....

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

金融级分布式架构

SOFAStack™(Scalable Open Financial Architecture Stack)是一套用于快速构建金融级分布式架构的中间件,也是在金融场景里锤炼出来的最佳实践。

+关注