希望能提交一个pr优化表格复原及ocr排序 #20

Joker1212 · 2024-09-09T15:16:17Z

Joker1212
Sep 9, 2024
Maintainer

1.ocr的识别框明显边界比表格模型的清晰，可以match后得到xmin,ymin,xmax,ymax修正表格识别框

2.判断contained逻辑修正为非包含区域面积/整体面积 < 阈值，会比 >= 稳定性更高

3.发现有场景logic_point的r_s = 1.5002. r_e = 1.4897,导致四舍五入后 r_e < r_s,需要增加一个阈值先判断是不是同一行
4.发现没有合并同行同列两个识别框，导致数据丢失
5.发现html输出时，完全依赖排序的顺序，没有利用上逻辑行列信息，导致输出表格错位

6.ocr的box排序规则修正逻辑可以优化为判断 y 轴的 containes, 同2的判断，比固定10更准确，目前已经遇到反例了


最后，因为最近也在搞文档rag的东西，写了很多包括pdf解析，layout导出了layoutlmv模型的onnx，可以看到https://www.modelscope.cn/models/jockerK/layoutlmv3-onnx
以及正在弄的先分类有线无线表格，再进行识别，非常认同rappid的目标和方案，也用了很多相关项目，希望能跟作者共建rappid生态

SWHL · 2024-09-10T01:48:50Z

SWHL
Sep 10, 2024
Maintainer

我去，第一次见到如此详细的反馈。欢迎提PR来完善这个表格识别哈。
方便的话，可以将微信号发我邮箱（[email protected]），交流方便。

0 replies

Athena233 · 2025-01-03T01:31:49Z

Athena233
Jan 3, 2025

1.ocr的识别框明显边界比表格模型的清晰，可以match后得到xmin,ymin,xmax,ymax修正表格识别框 2.判断contained逻辑修正为非包含区域面积/整体面积 < 阈值，会比 >= 稳定性更高 3.发现有场景logic_point的r_s = 1.5002. r_e = 1.4897,导致四舍五入后 r_e < r_s,需要增加一个阈值先判断是不是同一行 4.发现没有合并同行同列两个识别框，导致数据丢失 5.发现html输出时，完全依赖排序的顺序，没有利用上逻辑行列信息，导致输出表格错位 6.ocr的box排序规则修正逻辑可以优化为判断 y 轴的 containes, 同2的判断，比固定10更准确，目前已经遇到反例了最后，因为最近也在搞文档rag的东西，写了很多包括pdf解析，layout导出了layoutlmv模型的onnx，可以看到https://www.modelscope.cn/models/jockerK/layoutlmv3-onnx 以及正在弄的先分类有线无线表格，再进行识别，非常认同rappid的目标和方案，也用了很多相关项目，希望能跟作者共建rappid生态

博主这个提pr了嘛，是不是已经在release里面了呀

1 reply

SWHL Jan 3, 2025
Maintainer

已经在最新代码里了

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Uh oh!

希望能提交一个pr优化表格复原及ocr排序 #20

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{editor}}'s edit

{{editor}}'s edit

Uh oh!

Replies: 2 comments 1 reply

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

希望能提交一个pr优化表格复原及ocr排序 #20

Uh oh!

Uh oh!

Joker1212 Sep 9, 2024 Maintainer

Replies: 2 comments · 1 reply

Uh oh!

SWHL Sep 10, 2024 Maintainer

Uh oh!

Athena233 Jan 3, 2025

Uh oh!

SWHL Jan 3, 2025 Maintainer

Joker1212
Sep 9, 2024
Maintainer

Replies: 2 comments 1 reply

SWHL
Sep 10, 2024
Maintainer

Athena233
Jan 3, 2025

SWHL Jan 3, 2025
Maintainer