RL训练数据 #9

Open

opened

paper中提到用于RL的训练数据是12k，但是github仓库中提到的filter的数据有96k，而且filter的代码只是用qwen3-vl forward了一遍没有做筛选？

Metadata

Assignees

No one assigned

Labels

No labels

No labels

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests