feature(pu): add unizero_multitask atari concat_task_embed support

puyuan · puyuan · commit d53a402821ca · 2025-02-18T00:05:22.000+08:00
diff --git a/lzero/entry/train_unizero_multitask_segment_ddp.py b/lzero/entry/train_unizero_multitask_segment_ddp.py
@@ -467,7 +467,7 @@ def train_unizero_multitask_segment_ddp(
 
             # 判断是否需要进行评估
             # if learner.train_iter == 0 or evaluator.should_eval(learner.train_iter):
-            if learner.train_iter > 10 or evaluator.should_eval(learner.train_iter): # only for debug
+            if learner.train_iter > 10 and evaluator.should_eval(learner.train_iter): # only for debug
             # if evaluator.should_eval(learner.train_iter):
                 print('=' * 20)
                 print(f'Rank {rank} 评估任务_id: {cfg.policy.task_id}...')
diff --git a/lzero/mcts/buffer/game_buffer_muzero.py b/lzero/mcts/buffer/game_buffer_muzero.py
@@ -467,15 +467,15 @@ def _compute_target_reward_value(self, reward_value_context: List[Any], model: A
                     m_output = model.initial_inference(m_obs)
                 
 
-                if not model.training:
-                    # if not in training, obtain the scalars of the value/reward
-                    [m_output.latent_state, m_output.value, m_output.policy_logits] = to_detach_cpu_numpy(
-                        [
-                            m_output.latent_state,
-                            inverse_scalar_transform(m_output.value, self._cfg.model.support_scale),
-                            m_output.policy_logits
-                        ]
-                    )
+                # if not model.training:
+                # if not in training, obtain the scalars of the value/reward
+                [m_output.latent_state, m_output.value, m_output.policy_logits] = to_detach_cpu_numpy(
+                    [
+                        m_output.latent_state,
+                        inverse_scalar_transform(m_output.value, self._cfg.model.support_scale),
+                        m_output.policy_logits
+                    ]
+                )
 
                 network_output.append(m_output)
 
@@ -595,15 +595,15 @@ def _compute_target_policy_reanalyzed(self, policy_re_context: List[Any], model:
                 else:
                     m_output = model.initial_inference(m_obs)
 
-                if not model.training:
-                    # if not in training, obtain the scalars of the value/reward
-                    [m_output.latent_state, m_output.value, m_output.policy_logits] = to_detach_cpu_numpy(
-                        [
-                            m_output.latent_state,
-                            inverse_scalar_transform(m_output.value, self._cfg.model.support_scale),
-                            m_output.policy_logits
-                        ]
-                    )
+                # if not model.training:
+                # if not in training, obtain the scalars of the value/reward
+                [m_output.latent_state, m_output.value, m_output.policy_logits] = to_detach_cpu_numpy(
+                    [
+                        m_output.latent_state,
+                        inverse_scalar_transform(m_output.value, self._cfg.model.support_scale),
+                        m_output.policy_logits
+                    ]
+                )
 
                 network_output.append(m_output)
 
diff --git a/lzero/mcts/buffer/game_buffer_unizero.py b/lzero/mcts/buffer/game_buffer_unizero.py
@@ -438,15 +438,15 @@ def _compute_target_policy_reanalyzed(self, policy_re_context: List[Any], model:
 
             # =======================================================================
 
-            if not model.training:
-                # if not in training, obtain the scalars of the value/reward
-                [m_output.latent_state, m_output.value, m_output.policy_logits] = to_detach_cpu_numpy(
-                    [
-                        m_output.latent_state,
-                        inverse_scalar_transform(m_output.value, self._cfg.model.support_scale),
-                        m_output.policy_logits
-                    ]
-                )
+            # if not model.training:
+            # if not in training, obtain the scalars of the value/reward
+            [m_output.latent_state, m_output.value, m_output.policy_logits] = to_detach_cpu_numpy(
+                [
+                    m_output.latent_state,
+                    inverse_scalar_transform(m_output.value, self._cfg.model.support_scale),
+                    m_output.policy_logits
+                ]
+            )
 
             network_output.append(m_output)
 
@@ -556,15 +556,15 @@ def _compute_target_reward_value(self, reward_value_context: List[Any], model: A
 
             # ======================================================================
 
-            if not model.training:
-                # if not in training, obtain the scalars of the value/reward
-                [m_output.latent_state, m_output.value, m_output.policy_logits] = to_detach_cpu_numpy(
-                    [
-                        m_output.latent_state,
-                        inverse_scalar_transform(m_output.value, self._cfg.model.support_scale),
-                        m_output.policy_logits
-                    ]
-                )
+            # if not model.training:
+            # if not in training, obtain the scalars of the value/reward
+            [m_output.latent_state, m_output.value, m_output.policy_logits] = to_detach_cpu_numpy(
+                [
+                    m_output.latent_state,
+                    inverse_scalar_transform(m_output.value, self._cfg.model.support_scale),
+                    m_output.policy_logits
+                ]
+            )
 
             network_output.append(m_output)
 
diff --git a/lzero/model/unizero_model_multitask.py b/lzero/model/unizero_model_multitask.py
@@ -80,10 +80,15 @@ def __init__(
         world_model_cfg.norm_type = norm_type
         assert world_model_cfg.max_tokens == 2 * world_model_cfg.max_blocks, 'max_tokens should be 2 * max_blocks, because each timestep has 2 tokens: obs and action'
 
+        if world_model_cfg.task_embed_option == "concat_task_embed":
+            obs_act_embed_dim = world_model_cfg.embed_dim - 96
+        else:
+            obs_act_embed_dim = world_model_cfg.embed_dim
+
         if world_model_cfg.obs_type == 'vector':
             self.representation_network = RepresentationNetworkMLP(
                 observation_shape,
-                hidden_channels=world_model_cfg.embed_dim,
+                hidden_channels=obs_act_embed_dim,
                 layer_num=2,
                 activation=self.activation,
                 group_size=world_model_cfg.group_size,
@@ -109,7 +114,7 @@ def __init__(
                     self.downsample,
                     activation=self.activation,
                     norm_type=norm_type,
-                    embedding_dim=world_model_cfg.embed_dim,
+                    embedding_dim=obs_act_embed_dim,
                     group_size=world_model_cfg.group_size,
                 ))
                 # self.representation_network = RepresentationNetworkUniZero(
@@ -138,6 +143,7 @@ def __init__(
             print(f'{sum(p.numel() for p in self.tokenizer.encoder.parameters())} parameters in agent.tokenizer.encoder')
             print('==' * 20)
         elif world_model_cfg.obs_type == 'image_memory':
+            # todo for concat_task_embed
             self.representation_network = LatentEncoderForMemoryEnv(
                 image_shape=(3, 5, 5),
                 embedding_size=world_model_cfg.embed_dim,
diff --git a/lzero/model/unizero_world_models/world_model_multitask.py b/lzero/model/unizero_world_models/world_model_multitask.py
@@ -180,6 +180,11 @@ def __init__(self, config: TransformerConfig, tokenizer) -> None:
             self.act_embedding_table = nn.Embedding(config.action_space_size, self.obs_act_embed_dim, device=self.device)
             print(f"self.act_embedding_table.weight.device: {self.act_embedding_table.weight.device}")
 
+            print(f'='*20)
+            print(f"self.obs_act_embed_dim:{self.obs_act_embed_dim}")
+            print(f'='*20)
+
+
         # if self.num_experts_in_moe_head == -1:
         assert self.num_experts_in_moe_head > 0
         if self.use_normal_head:
@@ -647,10 +652,12 @@ def forward(self, obs_embeddings_or_act_tokens: Dict[str, Union[torch.Tensor, tu
             if self.task_embed_option == "add_task_embed":
                 obs_embeddings = obs_embeddings + self.task_embeddings
             elif self.task_embed_option == "concat_task_embed":
+
                 # print(f'=='*20)
                 # print(f'obs_embeddings.shape:{obs_embeddings.shape}')
                 # print(f'self.task_embeddings.shape:{self.task_embeddings.shape}')
                 # print(f'=='*20)
+
                 if is_init_infer:
                     # 注意只有在inference时，只有在is_init_infer时拼接task embeddings，recurr_infer中已经在init_infer中增加了task embeddings的信息了
                     # Expand task embeddings to match the sequence shape
@@ -862,21 +869,73 @@ def _process_obs_act_combined(self, obs_embeddings_or_act_tokens, prev_steps, ta
                                                  -1)
 
         num_steps = int(obs_embeddings.size(1) * (obs_embeddings.size(2) + 1))
-        # act_embeddings = self.act_embedding_table[task_id](act_tokens)
         act_embeddings = self.act_embedding_table(act_tokens)
 
         B, L, K, E = obs_embeddings.size()
-        obs_act_embeddings = torch.empty(B, L * (K + 1), E, device=self.device)
+        if self.task_embed_option == "concat_task_embed":
+            # B, L*2, E
+            obs_act_embeddings = torch.empty(B, L * (K + 1), self.config.embed_dim, device=self.device)
+        else:
+            # B, L*2, E
+            obs_act_embeddings = torch.empty(B, L * (K + 1), self.config.embed_dim, device=self.device)
+
+        if self.task_embed_option == "concat_task_embed":
+            # Expand task embeddings to match the sequence shape
+            task_emb_expanded = self.task_embeddings.view(1, 1, -1).expand(B, 1, -1)
+
 
         for i in range(L):
-            # obs = obs_embeddings[:, i, :, :]
-            obs = obs_embeddings[:, i, :, :] + self.task_embeddings  # Shape: (B, K, E) TODO: task_embeddings
+            if self.task_embed_option == "add_task_embed":
+                obs = obs_embeddings[:, i, :, :] + self.task_embeddings  # Shape: (B, K, E) TODO: task_embeddings
+            elif self.task_embed_option == "concat_task_embed":
+                obs = torch.cat([obs_embeddings[:, i, :, :], task_emb_expanded], dim=-1)
+            else:
+                obs = obs_embeddings[:, i, :, :]  # Shape: (B, K, E)
+
             act = act_embeddings[:, i, 0, :].unsqueeze(1)
+            if self.task_embed_option == "concat_task_embed":
+                act = torch.cat([act, task_emb_expanded], dim=-1)
+
             obs_act = torch.cat([obs, act], dim=1)
+            # print(f'obs_act.shape:{obs_act.shape}')
+
             obs_act_embeddings[:, i * (K + 1):(i + 1) * (K + 1), :] = obs_act
 
         return obs_act_embeddings + self.pos_emb(prev_steps + torch.arange(num_steps, device=self.device)), num_steps
 
+
+    #@profile
+    # def _process_obs_act_combined(self, obs_embeddings_or_act_tokens, prev_steps, task_id=0):
+    #     """
+    #     Process combined observation embeddings and action tokens.
+
+    #     Arguments:
+    #         - obs_embeddings_or_act_tokens (:obj:`dict`): Dictionary containing combined observation embeddings and action tokens.
+    #         - prev_steps (:obj:`torch.Tensor`): Previous steps.
+    #     Returns:
+    #         - torch.Tensor: Combined observation and action embeddings with position information added.
+    #     """
+    #     obs_embeddings, act_tokens = obs_embeddings_or_act_tokens['obs_embeddings_and_act_tokens']
+    #     if len(obs_embeddings.shape) == 3:
+    #         obs_embeddings = obs_embeddings.view(act_tokens.shape[0], act_tokens.shape[1], self.num_observations_tokens,
+    #                                              -1)
+
+    #     num_steps = int(obs_embeddings.size(1) * (obs_embeddings.size(2) + 1))
+    #     # act_embeddings = self.act_embedding_table[task_id](act_tokens)
+    #     act_embeddings = self.act_embedding_table(act_tokens)
+
+    #     B, L, K, E = obs_embeddings.size()
+    #     obs_act_embeddings = torch.empty(B, L * (K + 1), E, device=self.device)
+
+    #     for i in range(L):
+    #         # obs = obs_embeddings[:, i, :, :]
+    #         obs = obs_embeddings[:, i, :, :] + self.task_embeddings  # Shape: (B, K, E) TODO: task_embeddings
+    #         act = act_embeddings[:, i, 0, :].unsqueeze(1)
+    #         obs_act = torch.cat([obs, act], dim=1)
+    #         obs_act_embeddings[:, i * (K + 1):(i + 1) * (K + 1), :] = obs_act
+
+    #     return obs_act_embeddings + self.pos_emb(prev_steps + torch.arange(num_steps, device=self.device)), num_steps
+
     #@profile
     def _transformer_pass(self, sequences, past_keys_values, kvcache_independent, valid_context_lengths, task_id=0):
         """
diff --git a/lzero/policy/unizero_multitask.py b/lzero/policy/unizero_multitask.py
@@ -948,11 +948,11 @@ def _forward_eval(self, data: torch.Tensor, action_mask: list, to_play: int = -1
             network_output = self._eval_model.initial_inference(self.last_batch_obs_eval, self.last_batch_action, data, task_id=task_id)
             latent_state_roots, reward_roots, pred_values, policy_logits = mz_network_output_unpack(network_output)
 
-            if not self._eval_model.training:
-                # if not in training, obtain the scalars of the value/reward
-                pred_values = self.inverse_scalar_transform_handle(pred_values).detach().cpu().numpy()  # shape（B, 1）
-                latent_state_roots = latent_state_roots.detach().cpu().numpy()
-                policy_logits = policy_logits.detach().cpu().numpy().tolist()  # list shape（B, A）
+            # if not self._eval_model.training:
+            # if not in training, obtain the scalars of the value/reward
+            pred_values = self.inverse_scalar_transform_handle(pred_values).detach().cpu().numpy()  # shape（B, 1）
+            latent_state_roots = latent_state_roots.detach().cpu().numpy()
+            policy_logits = policy_logits.detach().cpu().numpy().tolist()  # list shape（B, A）
 
             legal_actions = [[i for i, x in enumerate(action_mask[j]) if x == 1] for j in range(active_eval_env_num)]
             if self._cfg.mcts_ctree:
diff --git a/zoo/atari/config/atari_unizero_multitask_segment_8games_ddp_config.py b/zoo/atari/config/atari_unizero_multitask_segment_8games_ddp_config.py
@@ -15,15 +15,17 @@ def create_config(env_id, action_space_size, collector_env_num, evaluator_env_nu
             n_evaluator_episode=evaluator_env_num,
             manager=dict(shared_memory=False),
             full_action_space=True,
-            # collect_max_episode_steps=int(5e3),
-            # eval_max_episode_steps=int(5e3),
+            collect_max_episode_steps=int(5e3),
+            eval_max_episode_steps=int(5e3),
             # ===== only for debug =====
-            collect_max_episode_steps=int(30),
-            eval_max_episode_steps=int(30),
+            # collect_max_episode_steps=int(30),
+            # eval_max_episode_steps=int(30),
         ),
         policy=dict(
-            use_moco=False,  # ==============TODO==============
             multi_gpu=True,  # Very important for ddp
+            only_use_moco_stats=False,
+            use_moco=False,  # ==============TODO==============
+            # use_moco=True,  # ==============TODO==============
             learn=dict(learner=dict(hook=dict(save_ckpt_after_iter=200000))),
             grad_correct_params=dict(
                 MoCo_beta=0.5, MoCo_beta_sigma=0.5, MoCo_gamma=0.1, MoCo_gamma_sigma=0.5, MoCo_rho=0,
@@ -41,11 +43,13 @@ def create_config(env_id, action_space_size, collector_env_num, evaluator_env_nu
                 world_model_cfg=dict(
                     continuous_action_space=False,
                                         
-                    task_embed_option=None,   # ==============TODO: none ==============
-                    use_task_embed=False, # ==============TODO==============
-                    use_shared_projection=False,
-                    
+                    # task_embed_option=None,   # ==============TODO: none ==============
+                    # use_task_embed=False, # ==============TODO==============
 
+                    task_embed_option='concat_task_embed',   # ==============TODO: none ==============
+                    use_task_embed=True, # ==============TODO==============
+
+                    use_shared_projection=False,
                     max_blocks=num_unroll_steps,
                     max_tokens=2 * num_unroll_steps,
                     context_length=2 * infer_context_length,
@@ -105,7 +109,8 @@ def generate_configs(env_id_list, action_space_size, collector_env_num, n_episod
                      norm_type, seed, buffer_reanalyze_freq, reanalyze_batch_size, reanalyze_partition,
                      num_segments, total_batch_size):
     configs = []
-    exp_name_prefix = f'data_unizero_atari_mt_20250212_debug/atari_{len(env_id_list)}games_bs64_brf{buffer_reanalyze_freq}_seed{seed}/'
+    exp_name_prefix = f'data_unizero_atari_mt_20250217/atari_{len(env_id_list)}games_concattaskembed_bs64_brf{buffer_reanalyze_freq}_seed{seed}_dev-uz-mz-mt-cont/'
+    # exp_name_prefix = f'data_unizero_atari_mt_20250217/atari_{len(env_id_list)}games_notaskembed_bs64_brf{buffer_reanalyze_freq}_seed{seed}_dev-uz-mz-mt-cont/'
 
     for task_id, env_id in enumerate(env_id_list):
         config = create_config(
@@ -136,7 +141,7 @@ def create_env_manager():
     Overview:
         This script should be executed with <nproc_per_node> GPUs.
         Run the following command to launch the script:
-        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29501 ./zoo/atari/config/atari_unizero_multitask_segment_8games_ddp_config.py
+        python -m torch.distributed.launch --nproc_per_node=4 --master_port=29502 ./zoo/atari/config/atari_unizero_multitask_segment_8games_ddp_config.py
         torchrun --nproc_per_node=8 ./zoo/atari/config/atari_unizero_multitask_segment_8games_ddp_config.py
     """
 
@@ -161,8 +166,8 @@ def create_env_manager():
     reanalyze_ratio = 0.0
     total_batch_size = 512
 
-    batch_size = [int(min(64, total_batch_size / len(env_id_list))) for _ in range(len(env_id_list))]
-    # batch_size = [int(min(32, total_batch_size / len(env_id_list))) for _ in range(len(env_id_list))]
+    # batch_size = [int(min(64, total_batch_size / len(env_id_list))) for _ in range(len(env_id_list))]
+    batch_size = [int(min(32, total_batch_size / len(env_id_list))) for _ in range(len(env_id_list))]
     
     num_unroll_steps = 10
     infer_context_length = 4
@@ -172,12 +177,12 @@ def create_env_manager():
     reanalyze_partition = 0.75
 
     # ======== TODO: only for debug ========
-    collector_env_num = 2
-    num_segments = 2
-    n_episode = 2
-    evaluator_env_num = 2
-    num_simulations = 2
-    batch_size = [4, 4, 4, 4, 4, 4, 4, 4]
+    # collector_env_num = 2
+    # num_segments = 2
+    # n_episode = 2
+    # evaluator_env_num = 2
+    # num_simulations = 1
+    # batch_size = [4, 4, 4, 4, 4, 4, 4, 4]
 
 
     for seed in [0]: