✍️ Add: translate Math Verify Leaderboard by jiminAn · Pull Request #116 · Hugging-Face-KREW/hugging-face-krew.github.io

jiminAn · 2025-11-30T03:43:06Z

작업내용
신규 포스팅 작성 : Fixing Open LLM Leaderboard with Math-Verify
블로그 원문 : https://huggingface.co/blog/math_verify_leaderboard

ahnjj

흥미로운 주제와 좋은 발표 감사합니다!:)

_posts/2025-12-01-math-verify-leaderboard.md

hyeonseo2

좋은 번역 감사합니다! 실습 내용 포함해서 발표해주셔서 이해가 더 잘 되었습니다~
아래 약간의 리뷰를 남겼습니다!

_posts/2025-12-01-math-verify-leaderboard.md

eehyo

좋은 글 번역 감사합니다! 원문과 비교해 수식이나 bold 에서 차이 있는 부분만 수정했습니다!

_posts/2025-12-01-math-verify-leaderboard.md

eehyo · 2025-12-08T07:18:12Z

_posts/2025-12-01-math-verify-leaderboard.md

+
+우리는 처음에 Qwen 모델을 점검하는 과정에서 수학 평가 방식의 문제를 발견했습니다. 기존 리더보드에서 Qwen 모델은 공식 성능(자체 보고 점수)보다 비정상적으로 낮은 점수를 받고 있었기 때문입니다. Math-Verify 적용 이후, Qwen 모델의 점수는 두 배 이상 증가하며 이전 평가가 얼마나 과소평가되었는지를 보여주었습니다.
+
+하지만, 영향받은 것은 Qwen 모델만이 아닙니다. DeepSeek 모델들도 크게 개선되었습니다. Math-Verify 적용 후 DeepSeek 모델의 점수는 거의 세 배 가까이 상승했습니다! 이는 DeepSeek 모델이 정답을 일반적으로 `(\boxed{})` 표기 안에 넣어 출력하는데, 기존 평가 방식은 이 정답 형식을 제대로 추출하지 못해 실제로는 맞은 답을 오답으로 처리했기 떄문입니다.


Suggested change

하지만, 영향받은 것은 Qwen 모델만이 아닙니다. DeepSeek 모델들도 크게 개선되었습니다. Math-Verify 적용 후 DeepSeek 모델의 점수는 거의 세 배 가까이 상승했습니다! 이는 DeepSeek 모델이 정답을 일반적으로 `(\boxed{})` 표기 안에 넣어 출력하는데, 기존 평가 방식은 이 정답 형식을 제대로 추출하지 못해 실제로는 맞은 답을 오답으로 처리했기 떄문입니다.

하지만, 영향받은 것은 Qwen 모델만이 아닙니다. **DeepSeek** 모델들도 크게 개선되었습니다. Math-Verify 적용 후 DeepSeek 모델의 점수는 거의 세 배 가까이 상승했습니다! 이는 DeepSeek 모델이 정답을 일반적으로 `(\boxed{})` 표기 안에 넣어 출력하는데, 기존 평가 방식은 이 정답 형식을 제대로 추출하지 못해 실제로는 맞은 답을 오답으로 처리했기 떄문입니다.

원문에 bold가 있길래 추가해보았습니다

_posts/2025-12-01-math-verify-leaderboard.md

Co-authored-by: Ahnjj_DEV <ahnjj.dev@gmail.com>

Co-authored-by: Hyeonseo Yun <0525yhs@gmail.com>

Co-authored-by: eehyo <112912122+eehyo@users.noreply.github.com>

Co-authored-by: Ahnjj_DEV <ahnjj.dev@gmail.com>

Co-authored-by: eehyo <112912122+eehyo@users.noreply.github.com>

안지민 added 4 commits November 30, 2025 11:41

✍️ Add: Math-Verify-Leaderboard

92e033f

✍️ update: draft translation

69c6ab1

✍️ update: final revision

b530ba7

✍️ update: typo

96a3ac6

ahnjj approved these changes Dec 3, 2025

View reviewed changes

hyeonseo2 requested changes Dec 5, 2025

View reviewed changes

_posts/2025-12-01-math-verify-leaderboard.md Outdated Show resolved Hide resolved

_posts/2025-12-01-math-verify-leaderboard.md Outdated Show resolved Hide resolved

_posts/2025-12-01-math-verify-leaderboard.md Outdated Show resolved Hide resolved

eehyo requested changes Dec 8, 2025

View reviewed changes

jiminAn and others added 17 commits December 14, 2025 16:09

Update _posts/2025-12-01-math-verify-leaderboard.md

3a3dc1f

Co-authored-by: Ahnjj_DEV <ahnjj.dev@gmail.com>

Update _posts/2025-12-01-math-verify-leaderboard.md

459c527

Co-authored-by: Ahnjj_DEV <ahnjj.dev@gmail.com>

Update _posts/2025-12-01-math-verify-leaderboard.md

7869e62

Co-authored-by: Ahnjj_DEV <ahnjj.dev@gmail.com>

Update _posts/2025-12-01-math-verify-leaderboard.md

679f00a

Co-authored-by: Ahnjj_DEV <ahnjj.dev@gmail.com>

Update _posts/2025-12-01-math-verify-leaderboard.md

6dd1b72

Co-authored-by: Hyeonseo Yun <0525yhs@gmail.com>

Update _posts/2025-12-01-math-verify-leaderboard.md

dc8ca58

Co-authored-by: Hyeonseo Yun <0525yhs@gmail.com>

Update _posts/2025-12-01-math-verify-leaderboard.md

143065c

Co-authored-by: Hyeonseo Yun <0525yhs@gmail.com>

Update _posts/2025-12-01-math-verify-leaderboard.md

bdd29f0

Co-authored-by: eehyo <112912122+eehyo@users.noreply.github.com>

Update _posts/2025-12-01-math-verify-leaderboard.md

8c6d822

Co-authored-by: eehyo <112912122+eehyo@users.noreply.github.com>

Update _posts/2025-12-01-math-verify-leaderboard.md

ab26f24

Co-authored-by: eehyo <112912122+eehyo@users.noreply.github.com>

Update _posts/2025-12-01-math-verify-leaderboard.md

9cbe4da

Co-authored-by: eehyo <112912122+eehyo@users.noreply.github.com>

Update _posts/2025-12-01-math-verify-leaderboard.md

cceb2cd

Co-authored-by: Ahnjj_DEV <ahnjj.dev@gmail.com>

Update _posts/2025-12-01-math-verify-leaderboard.md

47c971c

Co-authored-by: eehyo <112912122+eehyo@users.noreply.github.com>

Update _posts/2025-12-01-math-verify-leaderboard.md

64fde24

Co-authored-by: eehyo <112912122+eehyo@users.noreply.github.com>

Update _posts/2025-12-01-math-verify-leaderboard.md

aa2f390

Co-authored-by: eehyo <112912122+eehyo@users.noreply.github.com>

Update _posts/2025-12-01-math-verify-leaderboard.md

b3ed0be

Co-authored-by: eehyo <112912122+eehyo@users.noreply.github.com>

Update _posts/2025-12-01-math-verify-leaderboard.md

a5b047f

Co-authored-by: eehyo <112912122+eehyo@users.noreply.github.com>

jiminAn merged commit 6b90c69 into main Dec 14, 2025

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

✍️ Add: translate Math Verify Leaderboard#116

✍️ Add: translate Math Verify Leaderboard#116
jiminAn merged 21 commits intomainfrom
jimin-math-verify

jiminAn commented Nov 30, 2025

Uh oh!

ahnjj left a comment

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

hyeonseo2 left a comment

Uh oh!

Uh oh!

Uh oh!

Uh oh!

eehyo left a comment

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

eehyo Dec 8, 2025

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

4 participants


		우리는 처음에 Qwen 모델을 점검하는 과정에서 수학 평가 방식의 문제를 발견했습니다. 기존 리더보드에서 Qwen 모델은 공식 성능(자체 보고 점수)보다 비정상적으로 낮은 점수를 받고 있었기 때문입니다. Math-Verify 적용 이후, Qwen 모델의 점수는 두 배 이상 증가하며 이전 평가가 얼마나 과소평가되었는지를 보여주었습니다.

		하지만, 영향받은 것은 Qwen 모델만이 아닙니다. DeepSeek 모델들도 크게 개선되었습니다. Math-Verify 적용 후 DeepSeek 모델의 점수는 거의 세 배 가까이 상승했습니다! 이는 DeepSeek 모델이 정답을 일반적으로 `(\boxed{})` 표기 안에 넣어 출력하는데, 기존 평가 방식은 이 정답 형식을 제대로 추출하지 못해 실제로는 맞은 답을 오답으로 처리했기 떄문입니다.

Conversation

jiminAn commented Nov 30, 2025

Uh oh!

ahnjj left a comment

Choose a reason for hiding this comment

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

hyeonseo2 left a comment

Choose a reason for hiding this comment

Uh oh!

Uh oh!

Uh oh!

Uh oh!

eehyo left a comment

Choose a reason for hiding this comment

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

eehyo Dec 8, 2025

Choose a reason for hiding this comment

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

4 participants