Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关于部分docx和pdf文档无法识别问题 #329

Open
HZJprince opened this issue Dec 4, 2024 · 8 comments
Open

关于部分docx和pdf文档无法识别问题 #329

HZJprince opened this issue Dec 4, 2024 · 8 comments
Labels
bug Something isn't working

Comments

@HZJprince
Copy link

您好,已经更新到最新发布的版本,我这边再试试,发现还有些docx和pdf文档无法识别内容,全文搜索不到的,识别不了的例子文档我发您邮箱,能麻烦帮忙再看看是什么原因嘛

@jamebal
Copy link
Owner

jamebal commented Dec 4, 2024

好的,感谢反馈

@jamebal jamebal added the bug Something isn't working label Dec 4, 2024
@jamebal
Copy link
Owner

jamebal commented Dec 4, 2024

测试了下,有些文档确实只能读取到部分内容,剩下大部分内容没有读到

@HZJprince
Copy link
Author

好的,还是蛮多文档是这种格式,都检索不到,希望能解决,谢谢。

@jamebal
Copy link
Owner

jamebal commented Dec 4, 2024

更新了测试版镜像,可以试试

@HZJprince
Copy link
Author

经过测试验证,基本是能够识别出来了,不过例子文档里面的一些词组,在识别后,好像还是不能完全匹配,例如某个简历里面有个“苍”字,有个“排水”的词组匹配不出,其他都正常。

@jamebal
Copy link
Owner

jamebal commented Dec 5, 2024

经过测试验证,基本是能够识别出来了,不过例子文档里面的一些词组,在识别后,好像还是不能完全匹配,例如某个简历里面有个“苍”字,有个“排水”的词组匹配不出,其他都正常。

这个OCR的准确率不是特别高,“苍”总是被识别成了营或者苑😂

@HZJprince
Copy link
Author

明白了,那这个是OCR组件本身识别精度不好了,另外这个测试镜像,OCR任务进度那里不显示后台进度了,请问是改了吗?

@jamebal
Copy link
Owner

jamebal commented Dec 6, 2024

明白了,那这个是OCR组件本身识别精度不好了,另外这个测试镜像,OCR任务进度那里不显示后台进度了,请问是改了吗?

是的,这两天发个正式版,到时候会有进度显示

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
bug Something isn't working
Projects
None yet
Development

No branches or pull requests

2 participants