paper中提到用于RL的训练数据是12k,但是github仓库中提到的filter的数据有96k,而且filter的代码只是用qwen3-vl forward了一遍没有做筛选?
paper中提到用于RL的训练数据是12k,但是github仓库中提到的filter的数据有96k,而且filter的代码只是用qwen3-vl forward了一遍没有做筛选?