文档智能&RAG,让你的AI大模型开启“外挂”之旅

本方案介绍了如何实现将文档智能和检索增强生成(RAG)结合起来构建强大的LLM知识库,包括清洗文档内容、文档内容向量化、问答内容召回后通过特定的Prompt,提供给LLM足够的上下文信息,以此来满足对于企业级文档类型知识库的问答处理。

适用客户
  • 需要高效文档管理与解析的企业
  • 有精细化内容分析与洞察的需求
  • 开发智能文档问答系统的企业
  • 方案原理
  • 方案优势
  • 架构与部署
  • 应用场景
  • 优惠购买
  • 推荐解决方案
  • 方案原理

    通过文档智能(Document Mind)解析文档支撑检索增强生成RAG

    通过文档智能(Document Mind)将文档解析为结构化数据,结合语义理解,提取出文档层级树、样式信息以及版面信息,下游将解析的结果数据处理成文档切片,生成切块(Chunk)数据。

    如图所示,文档智能支持将非结构化文档内容提取的信息输出为Markdown和Json格式,更方便构建语义分块策略。

    • 解决问题:文档内容解析错误,相较于传统单页以电子解析文本或者OCR解析文本的方式,IDP则针对不同的文档类型,实现电子解析+OCR/NLP的细粒度混合版融合方案,通过电子解析+OCR/NLP中互相的优缺点弥补,提升解析的效果和性能。

    • 解决问题:切块丢失语义信息,基于最新自研的技术GeoLayoutLM 来研发层级树模型,可以面向各种长度和类型的文档,高效地提取其内部版面的层级关系,经过文档解析切分的文档内容保证了语义的不丢失,可直接输入至RAG的下游链路。

    • 解决问题:处理输出LLM友好的Markdown信息,相比于传统文本内容解析,Document Mind提供含层级的段落信息、表格及表格单元信息、图片信息,并包含丰富的标题、段落、页码、注解等版面类型信息。

    方案优势

    为什么选择文档智能保障RAG方案效果

    文档智能(Document Mind)可以精准识别并解析包括企业日常办公中常见的Office文档(Word/Excel/PPT )、PDF、Html、图片等在内的主流文件类型,返回文档的样式、版面信息和层级树结构,从而为RAG输入高精准度、高连贯语义的切块(Chunk),保障了整个RAG方案的基础效果。

    多格式支持

    支持包括Office文档、PDF、Html、图片处理为同一种结构化数据对象类型。

    提取文档层级树

    根据文档内容将文档中的层级树提取出来,可用于层级摘要、RAG ReRank等功能。

    分析文档版面信息

    分析提取文档中的标题、目录、段落、表格等基础元素,以及公式等更为复杂元素。

    部署方式灵活

    支持公共云API/SDK接入方式,产品形态灵活,使用门槛低。

    架构与部署

    如何结合文档智能和RAG构建LLM知识库

    本方案通过文档智能解析(大模型版)将文件处理为包含多个版面块单元的Json对象,过滤非正文内容后切分成多个切块存入知识库中。当接收到提问时,服务将问题转换为内容向量,在知识库中召回相关信息,并结合问题和召回内容,通过语言模型进行智能问答,提供准确回答。

    部署时长:30分钟
    预估费用:5元(假设您选择本文示例规格资源,且资源运行时间不超过60分钟。实际情况中可能会因您操作过程中实际使用的流量差异,会导致费用有所变化,请以控制台显示的实际报价以及最终账单为准))
    应用场景

    技术方案的广泛应用场景

  • 知识库文档问答

    问答系统作为RAG典型的应用,利用知识库检索能够生成更准确更有价值的答案。

  • 智能客服

    RAG可以构建对话系统,支持联系上下文进行语义理解,提升工单处理效率。

  • 信息检索

    RAG 可以优化信息检索系统,通过相似性语义也可以检索到相关信息。

  • 训练数据处理

    文档智能可通过处理为结构化数据后,清理过滤获得高质量文档类训练数据。

  • 优惠购买

    阿里云为你推荐优惠购买云产品

    技术解决方案咨询
    立即咨询