polish(pu): polish moco multigpu option

puyuan · puyuan · commit 1860f11d9049 · 2025-02-08T13:43:17.000+08:00
diff --git a/lzero/entry/train_muzero_multitask_segment_ddp.py b/lzero/entry/train_muzero_multitask_segment_ddp.py
@@ -379,7 +379,9 @@ def train_muzero_multitask_segment_ddp(
                 )
                 collect_kwargs['epsilon'] = epsilon_greedy_fn(collector.envstep)
 
-            if learner.train_iter == 0 or evaluator.should_eval(learner.train_iter):
+            # if learner.train_iter == 0 or evaluator.should_eval(learner.train_iter):
+            if learner.train_iter > 0 and evaluator.should_eval(learner.train_iter):
+
                 print('=' * 20)
                 print(f'Rank {rank} 评估 task_id: {cfg.policy.task_id}...')
 
diff --git a/lzero/policy/sampled_unizero_multitask.py b/lzero/policy/sampled_unizero_multitask.py
@@ -465,40 +465,19 @@ def _forward_learn(self, data: Tuple[torch.Tensor], task_weights=None) -> Dict[s
         # Core learn model update step
         self._optimizer_world_model.zero_grad()
 
+        # 假设每个进程计算出的 losses_list 为可求梯度的 tensor list，比如多个标量 loss 组成的列表
+        # 例如 losses_list = [loss1, loss2, ...]，其中每个 loss_i 都是形如 (1,) 的 tensor 且 requires_grad=True
         if self._cfg.use_moco:
-            # 如果已经初始化且多 GPU 情况下，只有 rank0 收集其他 GPU 的 loss_list
-            if dist.is_initialized() and dist.get_world_size() > 1:
-                rank = dist.get_rank()
-                world_size = dist.get_world_size()
-                # 利用分布式 gather_object：仅 rank0 指定接收缓冲区
-                if rank == 0:
-                    gathered_losses = [None for _ in range(world_size)]
-                else:
-                    gathered_losses = None  # 其他进程不需要接收
-                # gather_object 要求所有进程参与：每个进程发送自己的 losses_list，rank0 接收
-                dist.gather_object(losses_list, gathered_losses, dst=0)
-                if rank == 0:
-                    # 将各 GPU 上的 losses_list 展平，汇总成全局 losses_list
-                    all_losses_list = []
-                    for loss_list_tmp in gathered_losses:
-                        all_losses_list.extend(loss_list_tmp)
-                    losses_list = all_losses_list
-                else:
-                    # 非 rank0 设置为 None，防止误用
-                    losses_list = None
-
-            # 调用 MoCo 后向，由 grad_correct 中的 backward 实现梯度校正
-            # 注意：在 moco.backward 中会判断当前 rank 是否为 0，只有 rank0 会根据 losses_list 计算梯度，
-            # 其他 rank 直接等待广播校正后共享梯度
-            lambd = self.grad_correct.backward(losses=losses_list, **self._cfg.grad_correct_params)
+            # 调用 MoCo backward，由 grad_correct 中的 backward 实现梯度校正
+            lambd, stats = self.grad_correct.backward(losses=losses_list, **self._cfg.grad_correct_params)
         else:
             # 不使用梯度校正的情况，由各 rank 自己执行反向传播
             lambd = torch.tensor([0. for _ in range(self.task_num_for_current_rank)], device=self._cfg.device)
             weighted_total_loss.backward()
 
         total_grad_norm_before_clip_wm = torch.nn.utils.clip_grad_norm_(self._learn_model.world_model.parameters(), self._cfg.grad_clip_value)
 
-        if self._cfg.multi_gpu:
+        if self._cfg.multi_gpu and not self._cfg.use_moco:
             self.sync_gradients(self._learn_model)
 
         self._optimizer_world_model.step()
diff --git a/zoo/dmc2gym/config/dmc2gym_state_suz_multitask_ddp_8games_moco_config.py b/zoo/dmc2gym/config/dmc2gym_state_suz_multitask_ddp_8games_moco_config.py
@@ -17,8 +17,8 @@ def create_config(env_id, observation_shape_list, action_space_size_list, collec
             action_space_size_list=action_space_size_list,
             from_pixels=False,
             # ===== only for debug =====
-            frame_skip=50, # 100
-            # frame_skip=2,
+            # frame_skip=50, # 100
+            frame_skip=2,
             continuous=True,  # Assuming all DMC tasks use continuous action spaces
             collector_env_num=collector_env_num,
             evaluator_env_num=evaluator_env_num,
@@ -156,7 +156,7 @@ def generate_configs(env_id_list: List[str],
     # TODO: debug
     # exp_name_prefix = f'data_suz_mt_20250113/ddp_8gpu_nlayer8_upc200_taskweight-eval1e3-10k-temp10-1_task-embed_{len(env_id_list)}tasks_brf{buffer_reanalyze_freq}_tbs{total_batch_size}_seed{seed}/'
     
-    exp_name_prefix = f'data_suz_mt_20250207_debug/ddp_2gpu-moco_nlayer8_upc200_notaskweight_no-task-embed_{len(env_id_list)}tasks_brf{buffer_reanalyze_freq}_tbs{total_batch_size}_seed{seed}/'
+    exp_name_prefix = f'data_suz_mt_20250207/ddp_8gpu-moco_nlayer8_upc200_notaskweight_no-task-embed_{len(env_id_list)}tasks_brf{buffer_reanalyze_freq}_tbs{total_batch_size}_seed{seed}/'
 
     # exp_name_prefix = f'data_suz_mt_20250113/ddp_3gpu_3games_nlayer8_upc200_notusp_notaskweight-symlog-01-05-eval1e3_{len(env_id_list)}tasks_brf{buffer_reanalyze_freq}_tbs{total_batch_size}_seed{seed}/'
 
@@ -208,7 +208,7 @@ def create_env_manager():
     Overview:
         This script should be executed with <nproc_per_node> GPUs.
         Run the following command to launch the script:
-        python -m torch.distributed.launch --nproc_per_node=2 --master_port=29500 ./zoo/dmc2gym/config/dmc2gym_state_suz_multitask_ddp_8games_moco_config.py
+        python -m torch.distributed.launch --nproc_per_node=2 --master_port=29501 ./zoo/dmc2gym/config/dmc2gym_state_suz_multitask_ddp_8games_moco_config.py
         torchrun --nproc_per_node=8 ./zoo/dmc2gym/config/dmc2gym_state_suz_multitask_ddp_config.py
     """
 
@@ -239,16 +239,16 @@ def create_env_manager():
     # ]
 
     # DMC 8games
-    # env_id_list = [
-    #     'acrobot-swingup',
-    #     'cartpole-balance',
-    #     'cartpole-balance_sparse',
-    #     'cartpole-swingup',
-    #     'cartpole-swingup_sparse',
-    #     'cheetah-run',
-    #     "ball_in_cup-catch",
-    #     "finger-spin",
-    # ]
+    env_id_list = [
+        'acrobot-swingup',
+        'cartpole-balance',
+        'cartpole-balance_sparse',
+        'cartpole-swingup',
+        'cartpole-swingup_sparse',
+        'cheetah-run',
+        "ball_in_cup-catch",
+        "finger-spin",
+    ]
 
     # DMC 18games
     # env_id_list = [
@@ -302,12 +302,12 @@ def create_env_manager():
     reanalyze_partition = 0.75
 
     # ======== TODO: only for debug ========
-    collector_env_num = 2
-    num_segments = 2
-    n_episode = 2
-    evaluator_env_num = 2
-    num_simulations = 1
-    batch_size = [4 for _ in range(len(env_id_list))]
+    # collector_env_num = 2
+    # num_segments = 2
+    # n_episode = 2
+    # evaluator_env_num = 2
+    # num_simulations = 1
+    # batch_size = [4 for _ in range(len(env_id_list))]
     # =======================================
 
     seed = 0  # You can iterate over multiple seeds if needed

Original file line number	Diff line number	Diff line change
`@@ -379,7 +379,9 @@ def train_muzero_multitask_segment_ddp(`
`379`	`379`	`)`
`380`	`380`	`collect_kwargs['epsilon'] = epsilon_greedy_fn(collector.envstep)`
`381`	`381`
`382`		`- if learner.train_iter == 0 or evaluator.should_eval(learner.train_iter):`
	`382`	`+ # if learner.train_iter == 0 or evaluator.should_eval(learner.train_iter):`
	`383`	`+ if learner.train_iter > 0 and evaluator.should_eval(learner.train_iter):`
	`384`	`+`
`383`	`385`	`print('=' * 20)`
`384`	`386`	`print(f'Rank {rank} 评估 task_id: {cfg.policy.task_id}...')`
`385`	`387`