文章 2025-10-20 来自:开发者社区

百度PaddleOCR-VL多模态文档解析方案开源发布,0.9B参数问鼎SOTA

2025年,PaddleOCR陆续推出了文字识别方案PP-OCRv5、文档解析方案PP-StructureV3、关键信息抽取方案PP-ChatOCRv4等多项重磅解决方案。得益于多项创新突破,PaddleOCR受到了用户的广泛青睐,并崛起为大模型产业化的关键工具。 10.16,百度正式开源发布了新一代多模态文档解析模型方案PaddleOCR-VL!该方案仅0.9B参数就刷新了多个权威文档...

百度PaddleOCR-VL多模态文档解析方案开源发布,0.9B参数问鼎SOTA
文章 2025-01-09 来自:开发者社区

DashInfer-VLM,多模态SOTA推理性能,超vLLM!

01.引言 DashInfer-VLM是一个针对于视觉多模态大模型VLM的推理架构,特别优化了Qwen VL模型的推理加速,DashInfer-VLM和其他的VLM的推理加速框架最大的区别是, 它把VIT部分和LLM部分进行了分离,并且VIT和LLM的运行是并行运行,不互相干扰。 这样做的特点是,在VLM中的图片,视频预处理,以及VIT的特征抽取部分,不会打断LLM的生成,也可...

DashInfer-VLM,多模态SOTA推理性能,超vLLM!
文章 2024-11-11 来自:开发者社区

智源研究院发布千万级多模态指令数据集Infinity-MM:驱动开源模型迈向SOTA性能

近年来,视觉语言模型(VLM)取得了显著进展,训练数据的规模扩展以及数据质量的提升是提升模型性能的关键因素。目前主要的获取数据方式为通过人工对数据进行收集和标注以及利用模型对指令进行合成,业内也有许多工作专注于此。然而,现有的开源数据和指令数据集在数量和质量上依然落后,基于开源数据训练的模型在效果上仍然远落后于 SOTA 闭源模型或使用专有数据训练的开源模型。 为解决以上问题,进一步提升...

智源研究院发布千万级多模态指令数据集Infinity-MM:驱动开源模型迈向SOTA性能
文章 2024-09-07 来自:开发者社区

2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治切分增大分辨率后遗症

在人工智能领域,多模态大语言模型(MLLMs)的发展一直备受关注。最近,来自华中科技大学和华南理工大学的研究人员提出了一种名为Mini-Monkey的新型2B参数多模态大语言模型,该模型在处理高分辨率图像方面取得了显著突破。 Mini-Monkey的出现,旨在解决现有多模态大语言模型在处理高分辨率图像时所面临的挑...

文章 2024-06-29 来自:开发者社区

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

在计算机视觉和自然语言处理的交叉领域,多模态识别任务一直是一个热门的研究课题。这些任务旨在将图像或视频中的视觉信息与文本描述相结合,以实现更准确和全面的理解。然而,在区域级多模态识别任务中,如图像区域的文本描述生成,仍然存在一些挑战。 首先,大多数现有的方法在处理固定分辨率的视觉输入时,缺乏对不同分...

文章 2024-05-28 来自:开发者社区

Meta首发变色龙挑战GPT-4o,34B参数引领多模态革命!10万亿token训练刷新SOTA

Meta最近发布了一款名为Chameleon的新型多模态模型,该模型在多模态生成和理解方面展示了卓越的性能,有望引领多模态领域的革命。Chameleon是一个基于早期融合的混合模态模型,旨在理解和生成图像和文本,并能够以任意顺序处理它们。 Chameleon的独特之处在于它能够将图像和文本视为等价的离散令牌,并使用统一的Tra...

文章 2024-01-02 来自:开发者社区

社区供稿 | 封神榜团队提出首个引入视觉细化器的多模态大模型Ziya-Visual-Lyrics,多个任务SOTA

多模态大模型在输入输出上涵盖了图像、音频、视频等模态,让大模型超越了大语言模型的范畴,为大模型赋予了更强大的功能。如最近引起广泛关注的GPT4V、Gemini等,就让人们看到了多模态大模型的更多价值和可能性。在此背景下,业界对多模态大模型的研究不断深入,多模态大模型相关技术也随之不断发展突破。封神榜大模型团队基于在多模态领域积累的先进技术,首次在多模态大模型上加入图像标记、目标检测、语义分割模块....

社区供稿 | 封神榜团队提出首个引入视觉细化器的多模态大模型Ziya-Visual-Lyrics,多个任务SOTA
文章 2023-08-07 来自:开发者社区

字节团队提出猞猁Lynx模型:多模态LLMs理解认知生成类榜单SoTA

当前大语言模型 (Large Language Models, LLMs) 如 GPT4 在遵循给定图像的开放式指令方面表现出了出色的多模态能力。然而,这些模型的性能严重依赖于对网络结构、训练数据和训练策略等方案的选择,但这些选择并没有在先前的文献中被广泛讨论。此外,目前也缺乏合适的基准 (benchmarks) 来评估和比较这些模型,限制了多模态 LLMs 的 发展。论文:https://ar....

字节团队提出猞猁Lynx模型:多模态LLMs理解认知生成类榜单SoTA
文章 2023-05-18 来自:开发者社区

AAAI 2023|基于多模态标签聚合的视频检索模型TABLE,多项SOTA(2)

实验评估1、评估数据集:MSR-VTT、MSVD、LSMDC、DiDeMo。2、评估指标:R@K:Recall at rank K,K=1,5,10,TOP-K 召回结果中包含正确结果的比例;MdR:Median Rank,正确结果的排序中位数;MnR:Mean Rank,正确结果的排序平均数。3、与 SOTA 的性能对比随着 CLIP 等大规模预训练模型的提出,视频检索模型的性能也实现了较大的....

AAAI 2023|基于多模态标签聚合的视频检索模型TABLE,多项SOTA(2)
文章 2023-05-18 来自:开发者社区

AAAI 2023|基于多模态标签聚合的视频检索模型TABLE,多项SOTA(1)

近年来,互联网短小视频内容的爆发式增长,对视频 - 文本检索(Video-Text Retrieval)的能力提出了更高的要求。在 QQ 浏览器搜索中,视频通常包含标题、封面图、视频帧、音频等多种模态信息,因此视频检索模型引入了多模态特征,以刻画 query 与视频在多个模态上的相关程度,并进行综合排序,提升视频搜索结果的整体满意度。此外,QQ 浏览器还能根据用户正在观看的视频内容,推荐用户可能....

AAAI 2023|基于多模态标签聚合的视频检索模型TABLE,多项SOTA(1)

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

通义大模型

阿里云自主研发的通义大模型,凭借万亿级超大规模数据训练和领先的算法框架,实现全模态高效精准的模型服务调用。https://www.aliyun.com/product/tongyi

+关注