-
Notifications
You must be signed in to change notification settings - Fork 143
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
关于部分docx和pdf文档无法识别问题 #329
Comments
好的,感谢反馈 |
测试了下,有些文档确实只能读取到部分内容,剩下大部分内容没有读到 |
好的,还是蛮多文档是这种格式,都检索不到,希望能解决,谢谢。 |
更新了测试版镜像,可以试试 |
经过测试验证,基本是能够识别出来了,不过例子文档里面的一些词组,在识别后,好像还是不能完全匹配,例如某个简历里面有个“苍”字,有个“排水”的词组匹配不出,其他都正常。 |
这个OCR的准确率不是特别高,“苍”总是被识别成了营或者苑😂 |
明白了,那这个是OCR组件本身识别精度不好了,另外这个测试镜像,OCR任务进度那里不显示后台进度了,请问是改了吗? |
是的,这两天发个正式版,到时候会有进度显示 |
您好,已经更新到最新发布的版本,我这边再试试,发现还有些docx和pdf文档无法识别内容,全文搜索不到的,识别不了的例子文档我发您邮箱,能麻烦帮忙再看看是什么原因嘛
The text was updated successfully, but these errors were encountered: