在 https://alibaba.github.io/ROLL/docs/User%20Guides/Algorithms/LitePPO 中提到 LitePPO 的相关配置,其中 adv_estimator: "gae" num_return_sequences_in_group: 1 LitePPO 采样按组求均值以及按 batch 归一化的方式,所以为什么优势计算方法是 gae 而不是 grpo 呢,以及为什么每个 prompt 仅仅一个 response.