-
-
Notifications
You must be signed in to change notification settings - Fork 1.6k
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
去除保存ocr识别结果时对 !TesseractEnabled 的检测 #11708
Conversation
我看了看前端关于 ocr 的代码,之前我还奇怪为什么要打开图片菜单就进行 ocr 识别 现在看来 getImageOCRText 接口应该改为只返回 ocr-texts.json 中的结果,而原有功能改名为 ocrAsset 更好 |
相关:OCR 未启用时不保存 ocr-texts.json af694f6 |
那应该必须要改 getImageOCRText 接口和前端的行为了 |
已添加相关接口和修改前端代码 |
小白请教一下,当前状态下,直接修改“ocr-texts.json”中的内容,会实现思源笔记中图片ocr内容的正确变更吗? |
应该是会的吧 |
赞!👍👍这样就能使用外部程序批量对思源笔记图片附件进行ocr,写入“ocr-texts.json”中了。不用担心Tesseract占用资源和识别内容不准确的问题了。 |
但思源执行ocr时会使用Tesseract的结果来覆盖
|
请问Tesseract会对已有ocr内容的图片重新进行ocr吗? |
@88250 这个pr可以吗 |
@88250 期待能够使用外部ocr软件对思源附件中的图片进行批量ocr。即不与思源笔记抢进程,也不用担心识别不准确。仅在偶尔需要搜索图片内容时,自己进行一次ocr就完美解决问题。已准备好quicker动作: |
@@ -263,11 +263,12 @@ func ServeAPI(ginServer *gin.Engine) { | |||
ginServer.Handle("POST", "/api/asset/removeUnusedAsset", model.CheckAuth, model.CheckAdminRole, model.CheckReadonly, removeUnusedAsset) | |||
ginServer.Handle("POST", "/api/asset/removeUnusedAssets", model.CheckAuth, model.CheckAdminRole, model.CheckReadonly, removeUnusedAssets) | |||
ginServer.Handle("POST", "/api/asset/getDocImageAssets", model.CheckAuth, getDocImageAssets) | |||
ginServer.Handle("POST", "/api/asset/renameAsset", model.CheckAuth, model.CheckAdminRole, model.CheckReadonly, renameAsset) |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
这里 CheckAdminRole 是发布服务新增的,不能去掉吧?
@pisceswb 外部 OCR 的话只要写入 ocr-texts.json 时使用 内核文件 API 应该没有问题。 |
D大能给一个简单的实例吗,不会弄,谢谢D大! |
https://github.com/siyuan-note/siyuan/blob/master/API_zh_CN.md#%E5%86%99%E5%85%A5%E6%96%87%E4%BB%B6 |
@2234839 合并后测了下,好像有点问题:不能设置 OCR 结果了: |
https://getquicker.net/subprogram?id=29aa5aff-87b9-41eb-98f1-08dc7a77392c |
已将quicker动作公开,不作任何限制及要求,感兴趣的大佬尽管拿走修改。只希望能够实现使用quicker本地ocr批量处理思源笔记图片的功能。 |
@88250 现在将ocr 和获取 ocr 文本分离了,我待会给他移回去 然后还有一个问题,我之前以为是我本地 ocr tesseract 的问题,现在发现是思源没有处理本地文档下还有 assets 目录的问题
这个问题是在前端处理还是后端处理比较好,有现成的能够根据资源路径获取到实际路径的方法吗 |
…results (siyuan-note#11708) * 去除保存ocr识别结果时对 !TesseractEnabled 的检测 * 🐛 siyuan-note#11709 * siyuan-note#11708 修改ocr相关接口 * siyuan-note#11708 修改前端相关代码 * Update router.go * Update router.go --------- Co-authored-by: Vanessa <[email protected]>
不应当将保存 ocr 文本与 TesseractEnabled 关联
这导致我所开发的 OceanPress插件实现了 ocr 功能,但调用 setImageOCRText 却无法保存结果