通过文档智能(Document Mind)将文档解析为结构化数据,结合语义理解,提取出文档层级树、样式信息以及版面信息,下游将解析的结果数据处理成文档切片,生成切块(Chunk)数据。
如图所示,文档智能支持将非结构化文档内容提取的信息输出为Markdown和Json格式,更方便构建语义分块策略。
解决问题:文档内容解析错误,相较于传统单页以电子解析文本或者OCR解析文本的方式,IDP则针对不同的文档类型,实现电子解析+OCR/NLP的细粒度混合版融合方案,通过电子解析+OCR/NLP中互相的优缺点弥补,提升解析的效果和性能。
解决问题:切块丢失语义信息,基于最新自研的技术GeoLayoutLM 来研发层级树模型,可以面向各种长度和类型的文档,高效地提取其内部版面的层级关系,经过文档解析切分的文档内容保证了语义的不丢失,可直接输入至RAG的下游链路。
解决问题:处理输出LLM友好的Markdown信息,相比于传统文本内容解析,Document Mind提供含层级的段落信息、表格及表格单元信息、图片信息,并包含丰富的标题、段落、页码、注解等版面类型信息。
文档智能(Document Mind)可以精准识别并解析包括企业日常办公中常见的Office文档(Word/Excel/PPT )、PDF、Html、图片等在内的主流文件类型,返回文档的样式、版面信息和层级树结构,从而为RAG输入高精准度、高连贯语义的切块(Chunk),保障了整个RAG方案的基础效果。
支持包括Office文档、PDF、Html、图片处理为同一种结构化数据对象类型。
根据文档内容将文档中的层级树提取出来,可用于层级摘要、RAG ReRank等功能。
分析提取文档中的标题、目录、段落、表格等基础元素,以及公式等更为复杂元素。
支持公共云API/SDK接入方式,产品形态灵活,使用门槛低。
本方案通过文档智能解析(大模型版)将文件处理为包含多个版面块单元的Json对象,过滤非正文内容后切分成多个切块存入知识库中。当接收到提问时,服务将问题转换为内容向量,在知识库中召回相关信息,并结合问题和召回内容,通过语言模型进行智能问答,提供准确回答。
问答系统作为RAG典型的应用,利用知识库检索能够生成更准确更有价值的答案。
RAG可以构建对话系统,支持联系上下文进行语义理解,提升工单处理效率。
RAG 可以优化信息检索系统,通过相似性语义也可以检索到相关信息。
文档智能可通过处理为结构化数据后,清理过滤获得高质量文档类训练数据。