fix: use seq_length instead of padded_seq_length for topk output padding (#1929)

zpqiu · claude · web-flow · commit c51c0bfcba21 · 2026-02-12T13:00:21.000Z
Signed-off-by: Zhaopeng Qiu &lt;qiuzhaopeng@foxmail.com&gt;
Co-authored-by: Claude Opus 4.6 &lt;noreply@anthropic.com&gt;
diff --git a/nemo_rl/models/policy/workers/megatron_policy_worker.py b/nemo_rl/models/policy/workers/megatron_policy_worker.py
@@ -939,7 +939,7 @@ def collection_fn(_):
             for out in list_of_outputs:
                 tk = out["topk_logits"]
                 ti = out["topk_indices"]
-                pad_len = padded_seq_length - tk.shape[1]
+                pad_len = seq_length - tk.shape[1]
                 if pad_len > 0:
                     tk = torch.nn.functional.pad(tk, (0, 0, 0, pad_len), value=0.0)
                     ti = torch.nn.functional.pad(ti, (0, 0, 0, pad_len), value=0)