fix(pu): fix action_mask all-zero bug

puyuan · puyuan · commit 4a0d1c6061b3 · 2025-02-12T15:31:13.000+08:00
diff --git a/lzero/mcts/buffer/game_buffer_muzero.py b/lzero/mcts/buffer/game_buffer_muzero.py
@@ -737,6 +737,7 @@ def _compute_target_policy_non_reanalyzed(
                             for index, legal_action in enumerate(legal_actions[policy_index]):
                                 # only the action in ``legal_action`` the policy logits is nonzero
                                 # policy_tmp[legal_action] = distributions[index]
+                                # import ipdb;ipdb.set_trace()
                                 try:
                                     policy_tmp[legal_action] = distributions[index]
                                 except Exception as e:
diff --git a/lzero/policy/unizero.py b/lzero/policy/unizero.py
@@ -343,7 +343,7 @@ def _init_learn(self) -> None:
             wandb.watch(self._learn_model.representation_network, log="all")
 
         # TODO: ========
-        self.accumulation_steps = 1  # 累积的步数
+        self.accumulation_steps = self._cfg.accumulation_steps  # 累积的步数
 
     # @profile
     def _forward_learn(self, data: Tuple[torch.Tensor]) -> Dict[str, Union[float, int]]:
diff --git a/zoo/jericho/configs/jericho_unizero_config.py b/zoo/jericho/configs/jericho_unizero_config.py
@@ -16,14 +16,16 @@ def main(env_id='detective.z5', seed=0):
 
     evaluator_env_num = 2
     num_simulations = 50
-    max_env_step = int(10e6)
+    max_env_step = int(1e6)
 
     # proj train
     collector_env_num = 4
     n_episode = 4
     batch_size = 16 
     num_unroll_steps = 10
     infer_context_length = 4
+    # num_unroll_steps = 5
+    # infer_context_length = 2
 
     # all train
     # collector_env_num = 2
@@ -93,6 +95,7 @@ def main(env_id='detective.z5', seed=0):
             use_wandb=False,
             learn=dict(learner=dict(
                 hook=dict(save_ckpt_after_iter=1000000, ), ), ),
+            accumulation_steps=1, # TODO
             model=dict(
                 observation_shape=512,
                 action_space_size=action_space_size,
@@ -136,7 +139,7 @@ def main(env_id='detective.z5', seed=0):
             # game_segment_length=game_segment_length,
             # replay_buffer_size=int(1e6),
             replay_buffer_size=int(1e5),
-            eval_freq=int(5e3),
+            eval_freq=int(1e4),
             collector_env_num=collector_env_num,
             evaluator_env_num=evaluator_env_num,
             # ============= The key different params for reanalyze =============
diff --git a/zoo/jericho/envs/jericho_env.py b/zoo/jericho/envs/jericho_env.py
@@ -94,13 +94,18 @@ def prepare_obs(self, obs, return_str: bool = False):
             full_obs = np.array(full_obs['input_ids'][0], dtype=np.int32)  # TODO: attn_mask
 
 
-        if len(available_actions) <= self.max_action_num:
+        if len(available_actions) == 0:
+            # 避免action_maks全为0导致mcts报segment fault的错误
+            action_mask = [1] + [0] * (self.max_action_num - 1)
+        elif 0<len(available_actions) <= self.max_action_num:
             action_mask = [1] * len(available_actions) + [0] * (self.max_action_num - len(available_actions))
         elif len(available_actions) == self.max_action_num:
             action_mask = [1] * len(available_actions)
         else:
             action_mask = [1] * self.max_action_num
 
+        # action_mask = [0] * self.max_action_num
+
         action_mask = np.array(action_mask, dtype=np.int8)
 
         if return_str: # TODO: unizero需要加上'to_play'===============