文章 2025-10-20 来自:开发者社区

百度PaddleOCR-VL多模态文档解析方案开源发布,0.9B参数问鼎SOTA

2025年,PaddleOCR陆续推出了文字识别方案PP-OCRv5、文档解析方案PP-StructureV3、关键信息抽取方案PP-ChatOCRv4等多项重磅解决方案。得益于多项创新突破,PaddleOCR受到了用户的广泛青睐,并崛起为大模型产业化的关键工具。 10.16,百度正式开源发布了新一代多模态文档解析模型方案PaddleOCR-VL!该方案仅0.9B参数就刷新了多个权威文档...

百度PaddleOCR-VL多模态文档解析方案开源发布,0.9B参数问鼎SOTA
文章 2024-11-11 来自:开发者社区

智源研究院发布千万级多模态指令数据集Infinity-MM:驱动开源模型迈向SOTA性能

近年来,视觉语言模型(VLM)取得了显著进展,训练数据的规模扩展以及数据质量的提升是提升模型性能的关键因素。目前主要的获取数据方式为通过人工对数据进行收集和标注以及利用模型对指令进行合成,业内也有许多工作专注于此。然而,现有的开源数据和指令数据集在数量和质量上依然落后,基于开源数据训练的模型在效果上仍然远落后于 SOTA 闭源模型或使用专有数据训练的开源模型。 为解决以上问题,进一步提升...

智源研究院发布千万级多模态指令数据集Infinity-MM:驱动开源模型迈向SOTA性能

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

通义大模型

阿里云自主研发的通义大模型,凭借万亿级超大规模数据训练和领先的算法框架,实现全模态高效精准的模型服务调用。https://www.aliyun.com/product/tongyi

+关注