Optimized PDF extraction function #15572

fengsvkn · 2025-03-12T04:53:05Z

介绍：优化dify知识库的PDF文档提取能力，支持纯图片pdf的提取，支持pdf中图像、表格、公式的识别。

使用方法：
使用OpenDataLab开源项目优化dify在知识库部分的PDF文档识别功能。
https://github.com/opendatalab/PDF-Extract-Kit

本地部署

在api文件夹下下载模型文件
git clone https://www.modelscope.cn/opendatalab/pdf-extract-kit-1.0.git
如果不想下在api文件夹下可以修改pdf_extractor_config.yaml文件
其余部分按照官方文档安装即可

Docker 部署

进入docker目录
docker compose build
然后更改docker-compose.yaml文件，换到刚刚编译好的docker镜像
services:
api:
image: docker-api
worker:
image: docker-api
执行命令
docker compose up -d

等待5分种
进入127.0.0.1就可以使用

Optimized PDF extraction function

be353bf

dosubot bot added size:XXL This PR changes 1000+ lines, ignoring generated files. 💪 enhancement New feature or request labels Mar 12, 2025

fengsvkn added 2 commits March 12, 2025 13:17

Resolving merge conflicts

289459f

Resolving merge conflicts

e3ceaf5

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Optimized PDF extraction function #15572

Optimized PDF extraction function #15572

fengsvkn commented Mar 12, 2025

Optimized PDF extraction function #15572

Are you sure you want to change the base?

Optimized PDF extraction function #15572

Conversation

fengsvkn commented Mar 12, 2025