-
想问下[2024-05-02] Support mixed Chinese English formula recognition.具体是指什么样的功能或识别能力。测试如果是公式里带有中文字符并不能正常识别出来,看HF模型的tokenizer_config.json、vocab.jsont也没有更新中文的词。 |
Beta Was this translation helpful? Give feedback.
Answered by
OleehyO
May 6, 2024
Replies: 2 comments 1 reply
-
具体来说就是可以把中英文文字和公式混在一起识别(需要在web demo的侧栏里打开混合识别的选项),例如这张图: 混合识别会进行文字OCR+公式OCR,所以公式识别模型的tokenizer并不需要有中文的token。 |
Beta Was this translation helpful? Give feedback.
1 reply
Answer selected by
OleehyO
-
使用混合识别后推理速度会很慢,而且目前的版本效果还没有做的很好,等新一版的公式识别模型训练好以后(大概6月初)应该会改善很多。 |
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
具体来说就是可以把中英文文字和公式混在一起识别(需要在web demo的侧栏里打开混合识别的选项),例如这张图:
混合识别会进行文字OCR+公式OCR,所以公式识别模型的tokenizer并不需要有中文的token。