沐曦-智能文档工作流方案 DocFlowAI致力于文档知识结构化领域,依托沐曦C系列GPU强大的训练与推理性能,使用多模态AI技术,构建了一套高效、精准的文档结构化解析流程。
本方案提供了文档结构化工具,支持对DOC、PDF、PPT以及图片等多种不同格式文档进行 OCR 识别,并统一导出为结构化的 Markdown 文件。生成的 Markdown 文件可直接上传至本地部署的Dify平台的知识库,通过本方案提供的文档知识问答Agent工作流实现文档内容的问答检索。
本方案实现了对复杂文档的完整语义还原;解决在企业中普遍存在的多种格式文档结构化缺失导致的检索困难、信息孤岛问题;为知识管理、智能办公、教育数字化提供开箱即用的文档知识结构化基座,推动行业效率范式升级。
- 支持多格式文档(DOC/PDF/PPT/图像)OCR 识别
- 自动结构化为 Markdown,保留段落与标题层级
- 一键上传至 Dify 知识库
- 提供知识库问答工作流样例,可直接提问索引内容
- 本地运行,数据安全私有
- 企业内部文档问答系统
- 教材、PPT 内容知识抽取
- 法律/技术资料智能检索
- 批量构建 Dify 知识库
本方案具备如下技术优势:
-
本方案使用高质量的PDF解析工具MinerU,借助其全景结构识别技术不仅能完整保留文档结构和内容原义,还能实现智能分段、表格识别、图表提取等功能,显著提高文档的解析精度。
-
本方案使用经过数千万文档预训练的模型Dolphin,能够更准确地理解领域的专业术语和复杂文档结构。
-
在进行文字识别的同时,本方案额外使用Qwen2.5-VL-3B-Instruct多模态模型对文档中图片元素进行图片文字描述,实现对图片内容的理解,额外补充的文字信息,有利于后续检索过程对图片的精确索引。
相比于传统的基于关键词匹配的信息检索方式,本方案提供了一套基于LLM的RAG知识检索方案,其具备如下特点:
-
上下文检索:针对LLM模型回答不全面、缺少要点的问题,RAG 能突破传统检索方式,提供更准确和完整的文本召回能力。
-
灵活的 RAG 切分:不同类型的切分方式,确保不同粒度的问题都能灵活检索和准确生成。
-
多层次细粒度检索:根据不同领域知识特性采取不同检索框架,如Graph RAG,多模态RAG。
为助力企业能基于内部知识库开发智能问答机器人,本方案通过 Dify 平台构建出上述RAG知识检索工作流,解决企业用户的实际使用需求。本方案RAG工作流提供了完整的一站式的解决方案,包括:灵活的文档处理能力、便捷的系统对接能力,让企业内部开发者和一线用户都收获极致的产品体验。
针对大模型幻觉问题,Dify具备信息追溯技术,提供模型回答验证工具。用户可以快速定位和验证模型答案中每个关键信息点的来源,通过查看原文内容,确保信息的准确性和可靠性,有效提升大模型问答的可信度。
本方案中的文档解析与结构化功能具备以下两种文档解析方式
文档知识结构化Pipeline方案 是一种分阶段处理文档结构化的技术方案,核心流程为:
- 文档转图片:将输入文档(如 PDF、扫描件)转换为图像格式。
- 版式文档布局分析:通过目标检测模型预测文档布局,解析出文档中的图、表、公式、段落等元素区域。
- 元素内容解析:对检测出的不同区域分别进行元素内容解析(通过表格识别模型TSR、公式识别模型、 OCR模型 等)。
- 后处理与整合:对解析结果按照阅读顺序模型预测还原、格式修复、结构化输出(如 Markdown、json格式)。
文档知识结构化End2End方案通过多模态大模型直接实现“图片+指令→结构化文本”的端到端“文本+图像”的多模态解析,无需传统 OCR,TSR 或公式识别等多个CV模型。核心流程为:
- 文档转图片:将输入文档(如 PDF、扫描件)转换为图像格式。
- 版式文档布局分析:通过多模态大模型文档布局解析出文档中的图、表、公式、段落等元素区域并且有各元素阅读顺序。
- 元素内容解析:对检测出的不同区域用统一的多模态大模型进行元素内容解析。
- 后处理与整合:对解析结果进行阅读顺序还原、格式修复、结构化输出(如 Markdown、json格式)。
环境安装请参考:install.md
详细使用方法请参考 usage.md
本方案提供4种具备不同功能RAG方案,可适用于多种应用场景。在Dify平台上通过DSL文件一键导入,即插即用。
- Naive RAG:基础检索增强生成,直接检索文档片段后输入生成模型(LLM)进行回答;
- Advanced RAG:整合业界RAG优化策略(如query Expansion、重排序、查询扩展、动态上下文压缩等),提升检索和生成效果;
- Simple Multimodal RAG:支持多模态输入(如图片、文本),结合视觉语言模型(VLM)进行跨模态推理生成;
- Deep Research:通过论点规划构建“金字塔逻辑”,分阶段检索证据并生成结构化研究报告。
DIFY搭建与使用流程请参考:dify_build.md
四种RAG方案的DSL文件见:
本项目基于以下优秀开源方案开发而来:
本项目发布使用 GNU AGPL-3.0 许可证, 欢迎大家使用和贡献。
