PaddlePaddle · zhoutianzi666 · Feb 24, 2025
diff --git a/paddlenlp/experimental/transformers/utils.py b/paddlenlp/experimental/transformers/utils.py
@@ -58,22 +58,48 @@
     # init the model
     with ContextManagers(init_contexts):
         model = cls(config)
+
+    if True:
+        resolved_archive_file, _, _, _ = cls._resolve_model_file_path(
+            pretrained_model_name_or_path,
+            cache_dir=cache_dir,
+            subfolder=subfolder,
+            from_hf_hub=False,
+            from_aistudio=False,
+            config=config,
+            convert_from_torch=False,
+            use_safetensors=use_safetensors,
+            variant=variant,
+        )
 
-    resolved_archive_file, _, _, _ = cls._resolve_model_file_path(
-        pretrained_model_name_or_path,
-        cache_dir=cache_dir,
-        subfolder=subfolder,
-        from_hf_hub=False,
-        from_aistudio=False,
-        config=config,
-        convert_from_torch=False,
-        use_safetensors=use_safetensors,
-        variant=variant,
-    )
-
-    model_path = os.path.dirname(resolved_archive_file)
-    state_dict = load_tp_checkpoint(model_path, cls, config, return_numpy=return_numpy)
-    model.set_state_dict(state_dict)
+        model_path = os.path.dirname(resolved_archive_file)
+        state_dict = load_tp_checkpoint(model_path, cls, config, return_numpy=return_numpy)
+        model.set_state_dict(state_dict)
+
+        paddle.distributed.barrier()
+        rank = paddle.distributed.get_rank()
+        file_name = f"/root/paddlejob/workspace/env_run/output/deepseekv3/{rank}.pdparams"
+        state_dict = model.state_dict()
+        paddle.save(state_dict, file_name)
+        exit(0)
+    else:
+        model.deepseek_v2.transformer_block.init_weight()
+
+        for key, value in model.state_dict().items():
+            value._clear_data()
+
+        paddle.distributed.barrier()
+        rank = paddle.distributed.get_rank()
+        file_name = f"/root/paddlejob/workspace/env_run/output/deepseekv3/{rank}.pdparams"    
+        state_dict = paddle.load(file_name, return_numpy=False)
+
+        for key, value in model.state_dict().items():
+            value._clear_data()
+            new_v = state_dict.pop(key)
+            if new_v.dtype == paddle.int8:
+                # support fp8
+                new_v = new_v.view("float8_e4m3fn")
+            new_v._share_buffer_to(value)
 
     return model