关于 LitePPO 的相关配置

在 https://alibaba.github.io/ROLL/docs/User%20Guides/Algorithms/LitePPO 中提到 LitePPO 的相关配置，其中

adv_estimator: "gae"
num_return_sequences_in_group: 1

LitePPO 采样按组求均值以及按 batch 归一化的方式，所以为什么优势计算方法是 gae 而不是 grpo 呢，以及为什么每个 prompt 仅仅一个 response.