需求场景就是在使用 labelLLM标注后的数据集来进行 dingo评测一下质量如何,不行的话在进行二次labelLLM标注处理,反复直到达到高质量数据集这样。 会从labelLLM导出来的那个格式,文本类的问答这种来评估 <img width="259" height="178" alt="Image" src="https://github.com/user-attachments/assets/9af665ca-6ed9-4394-a0b3-f60c50e8e7af" />