✍️ Add: translate Math Verify Leaderboard#116
Merged
Conversation
hyeonseo2
requested changes
Dec 5, 2025
Collaborator
hyeonseo2
left a comment
There was a problem hiding this comment.
좋은 번역 감사합니다! 실습 내용 포함해서 발표해주셔서 이해가 더 잘 되었습니다~
아래 약간의 리뷰를 남겼습니다!
eehyo
requested changes
Dec 8, 2025
Collaborator
eehyo
left a comment
There was a problem hiding this comment.
좋은 글 번역 감사합니다! 원문과 비교해 수식이나 bold 에서 차이 있는 부분만 수정했습니다!
|
|
||
| 우리는 처음에 Qwen 모델을 점검하는 과정에서 수학 평가 방식의 문제를 발견했습니다. 기존 리더보드에서 Qwen 모델은 공식 성능(자체 보고 점수)보다 비정상적으로 낮은 점수를 받고 있었기 때문입니다. Math-Verify 적용 이후, Qwen 모델의 점수는 두 배 이상 증가하며 이전 평가가 얼마나 과소평가되었는지를 보여주었습니다. | ||
|
|
||
| 하지만, 영향받은 것은 Qwen 모델만이 아닙니다. DeepSeek 모델들도 크게 개선되었습니다. Math-Verify 적용 후 DeepSeek 모델의 점수는 거의 세 배 가까이 상승했습니다! 이는 DeepSeek 모델이 정답을 일반적으로 `(\boxed{})` 표기 안에 넣어 출력하는데, 기존 평가 방식은 이 정답 형식을 제대로 추출하지 못해 실제로는 맞은 답을 오답으로 처리했기 떄문입니다. |
Collaborator
There was a problem hiding this comment.
Suggested change
| 하지만, 영향받은 것은 Qwen 모델만이 아닙니다. DeepSeek 모델들도 크게 개선되었습니다. Math-Verify 적용 후 DeepSeek 모델의 점수는 거의 세 배 가까이 상승했습니다! 이는 DeepSeek 모델이 정답을 일반적으로 `(\boxed{})` 표기 안에 넣어 출력하는데, 기존 평가 방식은 이 정답 형식을 제대로 추출하지 못해 실제로는 맞은 답을 오답으로 처리했기 떄문입니다. | |
| 하지만, 영향받은 것은 Qwen 모델만이 아닙니다. **DeepSeek** 모델들도 크게 개선되었습니다. Math-Verify 적용 후 DeepSeek 모델의 점수는 거의 세 배 가까이 상승했습니다! 이는 DeepSeek 모델이 정답을 일반적으로 `(\boxed{})` 표기 안에 넣어 출력하는데, 기존 평가 방식은 이 정답 형식을 제대로 추출하지 못해 실제로는 맞은 답을 오답으로 처리했기 떄문입니다. |
원문에 bold가 있길래 추가해보았습니다
Co-authored-by: Ahnjj_DEV <ahnjj.dev@gmail.com>
Co-authored-by: Ahnjj_DEV <ahnjj.dev@gmail.com>
Co-authored-by: Ahnjj_DEV <ahnjj.dev@gmail.com>
Co-authored-by: Ahnjj_DEV <ahnjj.dev@gmail.com>
Co-authored-by: Hyeonseo Yun <0525yhs@gmail.com>
Co-authored-by: Hyeonseo Yun <0525yhs@gmail.com>
Co-authored-by: Hyeonseo Yun <0525yhs@gmail.com>
Co-authored-by: eehyo <112912122+eehyo@users.noreply.github.com>
Co-authored-by: eehyo <112912122+eehyo@users.noreply.github.com>
Co-authored-by: eehyo <112912122+eehyo@users.noreply.github.com>
Co-authored-by: eehyo <112912122+eehyo@users.noreply.github.com>
Co-authored-by: Ahnjj_DEV <ahnjj.dev@gmail.com>
Co-authored-by: eehyo <112912122+eehyo@users.noreply.github.com>
Co-authored-by: eehyo <112912122+eehyo@users.noreply.github.com>
Co-authored-by: eehyo <112912122+eehyo@users.noreply.github.com>
Co-authored-by: eehyo <112912122+eehyo@users.noreply.github.com>
Co-authored-by: eehyo <112912122+eehyo@users.noreply.github.com>
This file contains hidden or bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Add this suggestion to a batch that can be applied as a single commit.This suggestion is invalid because no changes were made to the code.Suggestions cannot be applied while the pull request is closed.Suggestions cannot be applied while viewing a subset of changes.Only one suggestion per line can be applied in a batch.Add this suggestion to a batch that can be applied as a single commit.Applying suggestions on deleted lines is not supported.You must change the existing code in this line in order to create a valid suggestion.Outdated suggestions cannot be applied.This suggestion has been applied or marked resolved.Suggestions cannot be applied from pending reviews.Suggestions cannot be applied on multi-line comments.Suggestions cannot be applied while the pull request is queued to merge.Suggestion cannot be applied right now. Please check back later.
작업내용
신규 포스팅 작성 : Fixing Open LLM Leaderboard with Math-Verify
블로그 원문 : https://huggingface.co/blog/math_verify_leaderboard