关于部分docx和pdf文档无法识别问题 #329

HZJprince · 2024-12-04T03:07:06Z

您好，已经更新到最新发布的版本，我这边再试试，发现还有些docx和pdf文档无法识别内容，全文搜索不到的，识别不了的例子文档我发您邮箱，能麻烦帮忙再看看是什么原因嘛

jamebal · 2024-12-04T05:36:17Z

好的，感谢反馈

jamebal · 2024-12-04T06:19:33Z

测试了下，有些文档确实只能读取到部分内容，剩下大部分内容没有读到

HZJprince · 2024-12-04T08:40:33Z

好的，还是蛮多文档是这种格式，都检索不到，希望能解决，谢谢。

jamebal · 2024-12-04T08:51:21Z

更新了测试版镜像，可以试试

HZJprince · 2024-12-05T01:34:04Z

经过测试验证，基本是能够识别出来了，不过例子文档里面的一些词组，在识别后，好像还是不能完全匹配，例如某个简历里面有个“苍”字，有个“排水”的词组匹配不出，其他都正常。

jamebal · 2024-12-05T06:44:46Z

经过测试验证，基本是能够识别出来了，不过例子文档里面的一些词组，在识别后，好像还是不能完全匹配，例如某个简历里面有个“苍”字，有个“排水”的词组匹配不出，其他都正常。

这个OCR的准确率不是特别高，“苍”总是被识别成了营或者苑😂

HZJprince · 2024-12-06T02:07:45Z

明白了，那这个是OCR组件本身识别精度不好了，另外这个测试镜像，OCR任务进度那里不显示后台进度了，请问是改了吗？

jamebal · 2024-12-06T03:18:00Z

明白了，那这个是OCR组件本身识别精度不好了，另外这个测试镜像，OCR任务进度那里不显示后台进度了，请问是改了吗？

是的，这两天发个正式版，到时候会有进度显示

jamebal added the bug Something isn't working label Dec 4, 2024

jamebal mentioned this issue Dec 4, 2024

fix: 修复部分word和pdf文档检索不到内容的问题 jamebal/jmal-cloud-server#192

Merged

Provide feedback