tmp: sync code

puyuan1996 · puyuan · commit d55ea52d2de1 · 2025-02-16T17:00:22.000+08:00
diff --git a/lzero/policy/unizero_multitask.py b/lzero/policy/unizero_multitask.py
@@ -207,6 +207,11 @@ class UniZeroMTPolicy(UniZeroPolicy):
             ),
         ),
         # ****** common ******
+        # (bool): Indicates whether to perform an offline evaluation of the checkpoint (ckpt).
+        # If set to True, the checkpoint will be evaluated after the training process is complete.
+        # IMPORTANT: Setting eval_offline to True requires configuring the saving of checkpoints to align with the evaluation frequency.
+        # This is done by setting the parameter learn.learner.hook.save_ckpt_after_iter to the same value as eval_freq in the train_muzero.py automatically.
+        eval_offline=False,
         # (bool) whether to use rnd model.
         use_rnd_model=False,
         # (bool) Whether to use multi-gpu training.
@@ -1144,27 +1149,35 @@ def _state_dict_learn(self) -> Dict[str, Any]:
         }
 
     # ========== TODO: original version: load all parameters ==========
-    def _load_state_dict_learn(self, state_dict: Dict[str, Any]) -> None:
-        """
-        Overview:
-            Load the state_dict variable into policy learn mode.
-        Arguments:
-            - state_dict (:obj:`Dict[str, Any]`): The dict of policy learn state saved before.
-        """
-        self._learn_model.load_state_dict(state_dict['model'])
-        self._target_model.load_state_dict(state_dict['target_model'])
-        self._optimizer_world_model.load_state_dict(state_dict['optimizer_world_model'])
+    # def _load_state_dict_learn(self, state_dict: Dict[str, Any]) -> None:
+    #     """
+    #     Overview:
+    #         Load the state_dict variable into policy learn mode.
+    #     Arguments:
+    #         - state_dict (:obj:`Dict[str, Any]`): The dict of policy learn state saved before.
+    #     """
+    #     self._learn_model.load_state_dict(state_dict['model'])
+    #     self._target_model.load_state_dict(state_dict['target_model'])
+    #     self._optimizer_world_model.load_state_dict(state_dict['optimizer_world_model'])
 
-    # # ========== TODO: pretrain-finetue version: only load encoder and transformer-backbone parameters, head use re init weight ==========
+    # # 仅加载 transformer_backbone 的参数，而 encoder 和 head 以及其他部分将保留原有的初始化参数。
     # def _load_state_dict_learn(self, state_dict: Dict[str, Any]) -> None:
     #     """
     #     Overview:
-    #         Load the state_dict variable into policy learn mode, excluding multi-task related parameters.
+    #         Load the state_dict variable into policy learn mode,
+    #         loading only the transformer_backbone parameters.
+    #         The encoder, head, and other parts retain their original initialized parameters.
     #     Arguments:
     #         - state_dict (:obj:`Dict[str, Any]`): The dict of policy learn state saved previously.
     #     """
+    #     # 定义需要加载的参数前缀（仅 transformer_backbone）
+    #     include_prefixes = [
+    #         '_orig_mod.world_model.transformer.'
+    #     ]
+        
     #     # 定义需要排除的参数前缀
     #     exclude_prefixes = [
+    #         '_orig_mod.world_model.tokenizer.',
     #         '_orig_mod.world_model.head_policy_multi_task.',
     #         '_orig_mod.world_model.head_value_multi_task.',
     #         '_orig_mod.world_model.head_rewards_multi_task.',
@@ -1179,25 +1192,33 @@ def _load_state_dict_learn(self, state_dict: Dict[str, Any]) -> None:
     #         # 添加其他需要排除的具体参数名
     #     ]
         
-    #     def filter_state_dict(state_dict_loader: Dict[str, Any], exclude_prefixes: list, exclude_keys: list = []) -> Dict[str, Any]:
+    #     def filter_state_dict(state_dict_loader: Dict[str, Any], include_prefixes: list, exclude_prefixes: list = [], exclude_keys: list = []) -> Dict[str, Any]:
     #         """
-    #         过滤掉需要排除的参数。
+    #         过滤仅包含需要加载的参数，并排除不需要的参数。
     #         """
     #         filtered = {}
     #         for k, v in state_dict_loader.items():
+    #             # 仅包含指定前缀的参数
+    #             if not any(k.startswith(prefix) for prefix in include_prefixes):
+    #                 continue
+    #             # 排除指定前缀的参数（如果有）
     #             if any(k.startswith(prefix) for prefix in exclude_prefixes):
-    #                 print(f"Excluding parameter: {k}")  # 调试用，查看哪些参数被排除
+    #                 print(f"Excluding parameter by prefix: {k}")  # 调试用
     #                 continue
+    #             # 排除指定键的参数（如果有）
     #             if k in exclude_keys:
     #                 print(f"Excluding specific parameter: {k}")  # 调试用
     #                 continue
     #             filtered[k] = v
     #         return filtered
 
-    #     # 过滤并加载 'model' 部分
+    #     # 过滤并加载 'model' 部分（仅 transformer_backbone）
     #     if 'model' in state_dict:
     #         model_state_dict = state_dict['model']
-    #         filtered_model_state_dict = filter_state_dict(model_state_dict, exclude_prefixes, exclude_keys)
+    #         # print(f'='*20)
+    #         # print(f'model_state_dict:{model_state_dict.keys()}')
+    #         # print(f'='*20)
+    #         filtered_model_state_dict = filter_state_dict(model_state_dict, include_prefixes, exclude_prefixes, exclude_keys)
     #         missing_keys, unexpected_keys = self._learn_model.load_state_dict(filtered_model_state_dict, strict=False)
     #         if missing_keys:
     #             print(f"Missing keys when loading _learn_model: {missing_keys}")
@@ -1206,10 +1227,12 @@ def _load_state_dict_learn(self, state_dict: Dict[str, Any]) -> None:
     #     else:
     #         print("No 'model' key found in the state_dict.")
 
-    #     # 过滤并加载 'target_model' 部分
+    #     # 不需要重新初始化 head 部分，因为它们未被加载，保持原有初始化参数
+
+    #     # 过滤并加载 'target_model' 部分（仅 transformer_backbone）
     #     if 'target_model' in state_dict:
     #         target_model_state_dict = state_dict['target_model']
-    #         filtered_target_model_state_dict = filter_state_dict(target_model_state_dict, exclude_prefixes, exclude_keys)
+    #         filtered_target_model_state_dict = filter_state_dict(target_model_state_dict, include_prefixes, exclude_prefixes, exclude_keys)
     #         missing_keys, unexpected_keys = self._target_model.load_state_dict(filtered_target_model_state_dict, strict=False)
     #         if missing_keys:
     #             print(f"Missing keys when loading _target_model: {missing_keys}")
@@ -1218,14 +1241,81 @@ def _load_state_dict_learn(self, state_dict: Dict[str, Any]) -> None:
     #     else:
     #         print("No 'target_model' key found in the state_dict.")
 
-    #     # 加载优化器的 state_dict，不需要过滤，因为优化器通常不包含模型参数
-    #     if 'optimizer_world_model' in state_dict:
-    #         optimizer_state_dict = state_dict['optimizer_world_model']
-    #         try:
-    #             self._optimizer_world_model.load_state_dict(optimizer_state_dict)
-    #         except Exception as e:
-    #             print(f"Error loading optimizer state_dict: {e}")
-    #     else:
-    #         print("No 'optimizer_world_model' key found in the state_dict.")
+    #     # 不需要重新初始化 target_model 的 head，因为它们未被加载，保持原有初始化参数
+
 
-    #     # 如果需要，还可以加载其他部分，例如 scheduler 等
+
+    # # ========== TODO: pretrain-finetue version: only load encoder and transformer-backbone parameters, head use re init weight ==========
+    def _load_state_dict_learn(self, state_dict: Dict[str, Any]) -> None:
+        """
+        Overview:
+            Load the state_dict variable into policy learn mode, excluding multi-task related parameters.
+        Arguments:
+            - state_dict (:obj:`Dict[str, Any]`): The dict of policy learn state saved previously.
+        """
+        # 定义需要排除的参数前缀
+        exclude_prefixes = [
+            '_orig_mod.world_model.head_policy_multi_task.',
+            '_orig_mod.world_model.head_value_multi_task.',
+            '_orig_mod.world_model.head_rewards_multi_task.',
+            '_orig_mod.world_model.head_observations_multi_task.',
+            '_orig_mod.world_model.task_emb.'
+        ]
+        
+        # 定义需要排除的具体参数（如果有特殊情况）
+        exclude_keys = [
+            '_orig_mod.world_model.task_emb.weight',
+            '_orig_mod.world_model.task_emb.bias',  # 如果存在则添加
+            # 添加其他需要排除的具体参数名
+        ]
+        
+        def filter_state_dict(state_dict_loader: Dict[str, Any], exclude_prefixes: list, exclude_keys: list = []) -> Dict[str, Any]:
+            """
+            过滤掉需要排除的参数。
+            """
+            filtered = {}
+            for k, v in state_dict_loader.items():
+                if any(k.startswith(prefix) for prefix in exclude_prefixes):
+                    print(f"Excluding parameter: {k}")  # 调试用，查看哪些参数被排除
+                    continue
+                if k in exclude_keys:
+                    print(f"Excluding specific parameter: {k}")  # 调试用
+                    continue
+                filtered[k] = v
+            return filtered
+
+        # 过滤并加载 'model' 部分
+        if 'model' in state_dict:
+            model_state_dict = state_dict['model']
+            filtered_model_state_dict = filter_state_dict(model_state_dict, exclude_prefixes, exclude_keys)
+            missing_keys, unexpected_keys = self._learn_model.load_state_dict(filtered_model_state_dict, strict=False)
+            if missing_keys:
+                print(f"Missing keys when loading _learn_model: {missing_keys}")
+            if unexpected_keys:
+                print(f"Unexpected keys when loading _learn_model: {unexpected_keys}")
+        else:
+            print("No 'model' key found in the state_dict.")
+
+        # 过滤并加载 'target_model' 部分
+        if 'target_model' in state_dict:
+            target_model_state_dict = state_dict['target_model']
+            filtered_target_model_state_dict = filter_state_dict(target_model_state_dict, exclude_prefixes, exclude_keys)
+            missing_keys, unexpected_keys = self._target_model.load_state_dict(filtered_target_model_state_dict, strict=False)
+            if missing_keys:
+                print(f"Missing keys when loading _target_model: {missing_keys}")
+            if unexpected_keys:
+                print(f"Unexpected keys when loading _target_model: {unexpected_keys}")
+        else:
+            print("No 'target_model' key found in the state_dict.")
+
+        # 加载优化器的 state_dict，不需要过滤，因为优化器通常不包含模型参数
+        # if 'optimizer_world_model' in state_dict:
+        #     optimizer_state_dict = state_dict['optimizer_world_model']
+        #     try:
+        #         self._optimizer_world_model.load_state_dict(optimizer_state_dict)
+        #     except Exception as e:
+        #         print(f"Error loading optimizer state_dict: {e}")
+        # else:
+        #     print("No 'optimizer_world_model' key found in the state_dict.")
+
+        # 如果需要，还可以加载其他部分，例如 scheduler 等
diff --git a/zoo/atari/config/atari_unizero_multitask_segment_8games_ddp_config.py b/zoo/atari/config/atari_unizero_multitask_segment_8games_ddp_config.py
@@ -43,7 +43,9 @@ def create_config(env_id, action_space_size, collector_env_num, evaluator_env_nu
                     device='cuda',
                     action_space_size=action_space_size,
                     # batch_size=64 8games训练时，每张卡大约占 12*3=36G cuda显存
-                    num_layers=12,
+                    # num_layers=12,
+                    # num_heads=24,
+                    num_layers=8,
                     num_heads=24,
                     embed_dim=768,
                     obs_type='image',
@@ -91,7 +93,7 @@ def generate_configs(env_id_list, action_space_size, collector_env_num, n_episod
                      norm_type, seed, buffer_reanalyze_freq, reanalyze_batch_size, reanalyze_partition,
                      num_segments, total_batch_size):
     configs = []
-    exp_name_prefix = f'data_unizero_mt_ddp-8gpu_20241226/{len(env_id_list)}games_brf{buffer_reanalyze_freq}_seed{seed}/'
+    exp_name_prefix = f'data_unizero_atari_mt_20250216/{len(env_id_list)}games_nlayer8_bs64_brf{buffer_reanalyze_freq}_seed{seed}/'
 
     for task_id, env_id in enumerate(env_id_list):
         config = create_config(
@@ -155,12 +157,12 @@ def create_env_manager():
     reanalyze_partition = 0.75
 
     # ======== TODO: only for debug ========
-    collector_env_num = 2
-    num_segments = 2
-    n_episode = 2
-    evaluator_env_num = 2
-    num_simulations = 2
-    batch_size = [4, 4, 4, 4, 4, 4, 4, 4]
+    # collector_env_num = 2
+    # num_segments = 2
+    # n_episode = 2
+    # evaluator_env_num = 2
+    # num_simulations = 2
+    # batch_size = [4, 4, 4, 4, 4, 4, 4, 4]
 
 
     for seed in [0]:
diff --git a/zoo/atari/config/atari_unizero_multitask_segment_finetune_config.py b/zoo/atari/config/atari_unizero_multitask_segment_finetune_config.py
@@ -50,8 +50,10 @@ def create_config(env_id, action_space_size, collector_env_num, evaluator_env_nu
                     use_normal_head=True,
                     use_softmoe_head=False,
                     moe_in_transformer=False,
-                    multiplication_moe_in_transformer=False,
                     num_experts_of_moe_in_transformer=4,
+                    multiplication_moe_in_transformer=False,
+                    num_experts_in_moe_head=4,
+                    use_moe_head=False,
                 ),
             ),
             total_batch_size=total_batch_size,
@@ -83,7 +85,8 @@ def create_config(env_id, action_space_size, collector_env_num, evaluator_env_nu
 
 def generate_configs(env_id_list, action_space_size, collector_env_num, n_episode, evaluator_env_num, num_simulations, reanalyze_ratio, batch_size, num_unroll_steps, infer_context_length, norm_type, seed, buffer_reanalyze_freq, reanalyze_batch_size, reanalyze_partition, num_segments, total_batch_size):
     configs = []
-    exp_name_prefix = f'data_unizero_mt_ddp-2gpu_1201/finetune_pong/{len(env_id_list)}games_brf{buffer_reanalyze_freq}_1-encoder-{norm_type}-res2-channel256_gsl20_{len(env_id_list)}-pred-head_lsd768-nlayer8-nh24_mbs-512-bs64_upc80_seed{seed}/'
+    exp_name_prefix = f'data_unizero_mt_ddp-2gpu_1201/finetune_amidar_load-encoder-backbone/{len(env_id_list)}games_brf{buffer_reanalyze_freq}_1-encoder-{norm_type}-res2-channel256_gsl20_{len(env_id_list)}-pred-head_lsd768-nlayer8-nh24_mbs-512-bs64_upc80_seed{seed}/'
+    # exp_name_prefix = f'data_unizero_mt_ddp-2gpu_1201_debug/finetune_amidar_load-backbone/{len(env_id_list)}games_brf{buffer_reanalyze_freq}_1-encoder-{norm_type}-res2-channel256_gsl20_{len(env_id_list)}-pred-head_lsd768-nlayer8-nh24_mbs-512-bs64_upc80_seed{seed}/'
 
     for task_id, env_id in enumerate(env_id_list):
         config = create_config(
@@ -127,22 +130,26 @@ def create_env_manager():
     Overview:
         This script should be executed with <nproc_per_node> GPUs.
         Run the following command to launch the script:
-        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29501 ./zoo/atari/config/atari_unizero_multitask_segment_finetune_config.py
+        python -m torch.distributed.launch --nproc_per_node=1 --master_port=29503 ./zoo/atari/config/atari_unizero_multitask_segment_finetune_config.py
         torchrun --nproc_per_node=8 ./zoo/atari/config/atari_unizero_multitask_segment_finetune_config.py
     """
 
     from lzero.entry import train_unizero_multitask_segment_ddp
     from ding.utils import DDPContext
     from easydict import EasyDict
 
-    env_id_list = ['PongNoFrameskip-v4']  # Debug setup
+    # env_id_list = ['PongNoFrameskip-v4']  # Debug setup
+    env_id_list = ['AmidarNoFrameskip-v4']  # Debug setup
+
     action_space_size = 18
 
     # NCCL environment setup
     import os
     os.environ["NCCL_TIMEOUT"] = "3600000000"
 
-    for seed in [0, 1, 2]:
+    # for seed in [0, 1, 2]:
+    for seed in [0]:
+    
         collector_env_num = 8
         num_segments = 8
         n_episode = 8
@@ -163,7 +170,7 @@ def create_env_manager():
 
         configs = generate_configs(env_id_list, action_space_size, collector_env_num, n_episode, evaluator_env_num, num_simulations, reanalyze_ratio, batch_size, num_unroll_steps, infer_context_length, norm_type, seed, buffer_reanalyze_freq, reanalyze_batch_size, reanalyze_partition, num_segments, total_batch_size)
 
-        pretrained_model_path = '/mnt/afs/niuyazhe/code/LightZero/data_unizero_mt_ddp-8gpu_1127/8games_brf0.02_nlayer8-nhead24_seed1/8games_brf0.02_1-encoder-LN-res2-channel256_gsl20_8-pred-head_lsd768-nlayer8-nh24_mbs-512-bs64_upc80_seed1/Pong_unizero-mt_seed1/ckpt/iteration_200000.pth.tar'
+        pretrained_model_path = '/mnt/afs/niuyazhe/code/LightZero/data_unizero_mt_ddp-8gpu_1127/8games_brf0.02_nlayer8-nhead24_seed1/8games_brf0.02_1-encoder-LN-res2-channel256_gsl20_8-pred-head_lsd768-nlayer8-nh24_mbs-512-bs64_upc80_seed1/Pong_unizero-mt_seed1/ckpt/ckpt_best.pth.tar'
 
         with DDPContext():
             train_unizero_multitask_segment_ddp(configs, seed=seed, model_path=pretrained_model_path, max_env_step=max_env_step)