Update run_sft.py

YJiangcm · web-flow · commit 08ef0e618c9a · 2024-09-21T10:54:13.000+08:00
diff --git a/scripts/run_sft.py b/scripts/run_sft.py
@@ -113,7 +113,7 @@ def main():
     model_kwargs = dict(
         revision=model_args.model_revision,
         trust_remote_code=model_args.trust_remote_code,
-        attn_implementation='flash_attention_2',
+        attn_implementation=model_args.attn_implementation,
         torch_dtype=torch_dtype,
         use_cache=False if training_args.gradient_checkpointing else True,
         device_map=get_kbit_device_map() if quantization_config is not None else None,
@@ -230,4 +230,4 @@ def main():
 
 
 if __name__ == "__main__":
-    main()
+    main()