文章 2025-03-20 来自:开发者社区

SmolDocling:256M多模态小模型秒转文档!开源OCR效率提升10倍

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术! AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 "学术狗集体泪目!这个AI把论文截图秒变Markdow...

SmolDocling:256M多模态小模型秒转文档!开源OCR效率提升10倍
文章 2025-03-03 来自:开发者社区

3.4K star!全能PDF处理神器开源!文档转换/OCR识别一键搞定

嗨,大家好,我是小华同学,关注我们获得“最新、最全、最优质”开源项目和高效工作学习方法 PDF-Guru 是一款开箱即用的全能型PDF处理工具,支持跨平台文档转换、智能OCR识别、多格式解析等核心功能。项目采用模块化架构设计,提供简洁的Web界面和API接口,开发者可快速集成到现有系统中。 ...

3.4K star!全能PDF处理神器开源!文档转换/OCR识别一键搞定
文章 2025-01-01 来自:开发者社区

Vision Parse:开源的 PDF 转 Markdown 工具,结合视觉语言模型和 OCR,识别文本和表格并保持原格式

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦! 微信公众号|搜一搜:蚝油菜花 原文链接:https://mp.weixin.qq.com/s/IJoNBHpVIeue4ThHaVoF2Q 快速阅读 功能:将 PDF 文件转换为 Markdown 格式,支持文本和表格...

Vision Parse:开源的 PDF 转 Markdown 工具,结合视觉语言模型和 OCR,识别文本和表格并保持原格式
文章 2024-09-26 来自:开发者社区

阶跃星辰开源GOT-OCR2.0:统一端到端模型,魔搭一站式推理微调最佳实践来啦!

引言 OCR技术在将现实世界中的文本信息转换为可编辑、可搜索的数据方面发挥着至关重要的作用,它桥接着物理世界与数字世界,是实现信息自动化处理的关键技术。作为AI-1.0时代的技术成果,OCR技术已经相对成熟,被广泛应用于文档管理、自动驾驶、智能监控等多个领域。 然而,随着技术的发展和应用需求的提升,OCR 1.0技术逐渐展现出局限性。传统OCR系统在处理复杂场景、模糊图...

阶跃星辰开源GOT-OCR2.0:统一端到端模型,魔搭一站式推理微调最佳实践来啦!
文章 2024-03-21 来自:开发者社区

关于Github中开源OCR项目的实验过程与思考

本人新手一枚,想着自行学习下python语言,就尝试从相对简单的git clone ocr项目代码来进行实验,整个流程测试下来,遭遇到了就是各种稀奇古怪的报错,以下是整个实验的流程和思考。 搜索并浏览了Github中的开源ocr项目,选择了以下三个项目来进行实验和测试。 1. Paddle OCR   最终结果:Notebook环境部署失败,...

文章 2024-03-15 来自:开发者社区

WPF开源的一款免费、开箱即用的翻译、OCR工具

前言 今天大姚给大家分享一款由WPF开源的、免费的(MIT License)、即开即用、即用即走的翻译、OCR工具:STranslate。 WPF介绍 WPF 是一个强大的桌面应用程序框架,用于构建具有丰富用户界面的 Windows 应用。它提供了灵活的布局、数据绑定、样式和模板、动画效果等功能,让开发者可以创建出吸引人且交互性强的应用程序。 工具快捷键 ...

WPF开源的一款免费、开箱即用的翻译、OCR工具
文章 2023-12-07 来自:开发者社区

开源OCR模型DIY票证信息抽取

票证检测矫正模型在实际生活中有着广泛的需求,例如信息抽取、图像质量判断、证件扫描、票据审计等领等场景,可以大幅提高工作效率和准确性。      读光-票证检测矫正模型日前,读光团队 开源的商用票证检测矫正模型,基于海量的真实数据训练,可以从容应对多种复杂场景的票证检测矫正任务,该模型具有以下优点:支持任意角度、多卡证票据等混贴场景,同时检测输入图像任意角度的多个子图....

开源OCR模型DIY票证信息抽取
文章 2022-06-02 来自:开发者社区

通过容器搭建开源文字识别/OCR服务

前一段时间需要应用文字识别,看了一下国内外开源的OCR软件,发现中文识别有:TesseractPaddleOCREasyOCRChineseocrTrwebocrCnocr/cnstd等,通过对比识别效果,感觉PaddleOCR效果较好,准备部署服务,开发环境没有GPU,所以先通过容器模式部署CPU版。具体过程如下:下载PaddleOCR:https://gitee.com/paddlepadd....

文章 2022-02-17 来自:开发者社区

开源ocr库-转载

3月8日 开源的OCR库,Opensourced OCR library 突然想起如何做一个论坛的发帖机,但是现在多数都要图片认证,需要一个OCR库来识别图片。于是在网上找了找,还真是有很多实现: OCRE, OCR Easy, http://lem.eui.upm.es/ocre.html Clara OCR, http://directory.fsf.org/c...

文章 2021-12-18 来自:开发者社区

GitHub开源:支持100多种语言的OCR文字识别

之前为给位朋友分享过:GitHub开源:17M超轻量级中文OCR模型、支持NCNN推理,该项目仅仅支持中文OCR识别,本篇博文将分享支持100多种语言的OCR文字识别项目:Tesseract OCR。Tesseract是一款由HP实验室开发由Google维护的开源OCR(Optical Character Recognition , 光学字符识别)引擎。Tesseract 支持 unicode(....

GitHub开源:支持100多种语言的OCR文字识别

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐