文章 2025-01-01 来自:开发者社区

Vision Parse:开源的 PDF 转 Markdown 工具,结合视觉语言模型和 OCR,识别文本和表格并保持原格式

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦! 微信公众号|搜一搜:蚝油菜花 原文链接:https://mp.weixin.qq.com/s/IJoNBHpVIeue4ThHaVoF2Q 快速阅读 功能:将 PDF 文件转换为 Markdown 格式,支持文本和表格...

Vision Parse:开源的 PDF 转 Markdown 工具,结合视觉语言模型和 OCR,识别文本和表格并保持原格式
文章 2024-12-16 来自:开发者社区

Kimi 上线视觉思考模型,K1 系列强化学习模型正式开放,无需借助外部 OCR 处理图像与文本进行思考并回答

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦! 微信公众号|搜一搜:蚝油菜花 快速阅读 功能:k1视觉思考模型支持端到端图像理解和推理思维链展示。 技术:基于预训练和强化学习后训练,优化字符识别能力,表现全球领先。 应用:广泛应用于教育、学术研究、图像识别等领域...

Kimi 上线视觉思考模型,K1 系列强化学习模型正式开放,无需借助外部 OCR 处理图像与文本进行思考并回答
文章 2024-08-15 来自:开发者社区

OCR -- 文本识别 -- 实践篇

OCR -- 文本识别 -- 理论篇 本章将详细介绍如何基于PaddleOCR完成CRNN文本识别模型的搭建、训练、评估和预测。数据集采用 icdar 2015,其中训练集有4468张,测试集有2077张。 CRNN是基于CTC的算法,CRNN是较早被提出也是目前工业界应用较多的方法。主要用于识别规则文本,有效快的预测速度,并且因为序列不对齐,不受长度的影响,所以在长文本上有很好...

OCR -- 文本识别 -- 实践篇
文章 2024-08-15 来自:开发者社区

OCR -- 文本识别 -- 理论篇

文本识别的应用场景很多,有文档识别、路标识别、车牌识别、工业编号识别等等,根据实际场景可以把文本识别任务分为两个大类:规则文本识别和不规则文本识别。 规则文本识别:主要指印刷字体、扫描文本等,认为文本大致处在水平线位置 不规则文本识别: 往往出现在自然场景中,且由于文本曲率、方向、变形等方面差异巨大,文字往往不在水平位置,存在弯曲、遮挡、模糊等问题。 ...

OCR -- 文本识别 -- 理论篇
文章 2024-08-15 来自:开发者社区

OCR -- 文本检测 - 训练DB文字检测模型

PaddleOCR提供DB文本检测算法,支持MobileNetV3、ResNet50_vd两种骨干网络,可以根据需要选择相应的配置文件,启动训练。 本节以icdar15数据集、MobileNetV3作为骨干网络的DB检测模型(即超轻量模型使用的配置)为例,介绍如何完成PaddleOCR中文字检测模型的训练、评估与测试。 3.1 数据准备 本次实验选取了场景文本检测和识别(...

OCR -- 文本检测 - 训练DB文字检测模型
文章 2024-08-15 来自:开发者社区

OCR -- 文本检测

目录 目标检测: 文本检测: 检测难点: 检测方法: 基于回归的文本检测 水平文本检测 任意角度文本检测 弯曲文本检测 基于分割的文本检测 代码示例 可视化文本检测预测 ...

OCR -- 文本检测
问答 2024-07-10 来自:开发者社区

文字识别OCR解析文本支持多语言吗?

文字识别OCR解析文本支持多语言吗?

文章 2024-07-04 来自:开发者社区

文本,文字识别13,参数校验,实现参数校验,使用@Valid注解

我们在开发接口的时候, 需要对参数进行校验 使用 ...

文本,文字识别13,参数校验,实现参数校验,使用@Valid注解
文章 2024-07-04 来自:开发者社区

文本,文字识别12,接口返回值和异常封装,一个好的接口,应该包括,错误码,提示信息,返回的数据,应该知道出错,错在哪里,抛出业务异常应该怎样解决?出现业务异常的时候,抛出业务异常,全局异常处理

资料链接: SpringBoot服务开发-接口返回值和异常封装_哔哩哔哩_bilibili SpringBoot服务开发-全局异常处理_哔哩哔哩_bilibili 之前我们在编写接口的时候,直接编写了一个List ...

文本,文字识别12,接口返回值和异常封装,一个好的接口,应该包括,错误码,提示信息,返回的数据,应该知道出错,错在哪里,抛出业务异常应该怎样解决?出现业务异常的时候,抛出业务异常,全局异常处理
文章 2024-07-04 来自:开发者社区

文本,文字识别07,SpringBoot服务开发-入参和返回值,编写接口的时候,要注意识别的文字返回的是多行,因此必须是List集合,Bean层,及实体类的搭建

设置Application的文件,设置/ocr,这里的意思是设置根路径的意思 之后写一下接口参数和Java所对应的Bean, ...

文本,文字识别07,SpringBoot服务开发-入参和返回值,编写接口的时候,要注意识别的文字返回的是多行,因此必须是List集合,Bean层,及实体类的搭建

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐