- closed-platform, 주요 open-platform models에서 사용된 벤치마크들이 포함되어 있습니다.
json
파일들을 통해서 벤치마크 질문셋의 샘플을 쉽게 볼 수 있습니다.README.md
에는 각 벤치마크의 특징들이 논문을 기반으로 요약되어 있습니다.requirements.txt
나.py
파일들을 설치하지 않아도 됩니다. tasks를 확인하는 것으로도 충분합니다.
LM Harness: https://github.com/EleutherAI/lm-evaluation-harness