intel
diff --git a/‎llm_on_ray/finetune/dpo_funetuing.py‎ renamed to ‎llm_on_ray/finetune/data_preprocess.py‎
Lines changed: 5 additions & 90 deletions b/‎llm_on_ray/finetune/dpo_funetuing.py‎ renamed to ‎llm_on_ray/finetune/data_preprocess.py‎
Lines changed: 5 additions & 90 deletions
diff --git a/‎llm_on_ray/finetune/dpo_finetuing.py‎
Lines changed: 129 additions & 0 deletions b/‎llm_on_ray/finetune/dpo_finetuing.py‎
Lines changed: 129 additions & 0 deletions
@@ -14,23 +14,15 @@
 # limitations under the License.
 #
 import datasets
-import torch
-from peft import LoraConfig
-from transformers import AutoModelForCausalLM
 from typing import Dict
 
 IGNORE_INDEX = -100
 
 
-class DPOIntelOrcaProcesser:
+class DPOIntelOrcaPreprocesser:
     @staticmethod
     def tokenize_dataset(config, tokenizer, dataset):
         tokenizer.pad_token = tokenizer.eos_token
-        if isinstance(dataset, datasets.Dataset):
-            column_names = dataset.column_names
-
-        if isinstance(dataset, datasets.DatasetDict):
-            column_names = dataset["train"].column_names
 
         def return_prompt_and_responses(samples) -> Dict[str, str]:
             return {
@@ -44,15 +36,11 @@ def return_prompt_and_responses(samples) -> Dict[str, str]:
                 "rejected": samples["rejected"],
             }
 
-        raw_datasets = dataset.map(
+        dataset = dataset.map(
             return_prompt_and_responses,
-            remove_columns=column_names,
             load_from_cache_file=False,
             desc="Tokenize dataset",
         )
-        train_dataset = raw_datasets["train"]
-        column_names = train_dataset.column_names
-
         """
         Copied from https://github.com/intel/intel-extension-for-transformers/blob/5ba5fa8048b63bec8a3be8a7122a3db8344ad065/
         intel_extension_for_transformers/neural_chat/examples/finetuning/dpo_pipeline/dpo_clm.py#L308
@@ -145,6 +133,8 @@ def preprocess_function(examples):
 
             return examples
 
+        train_dataset = dataset["train"]
+        column_names = list(train_dataset.features)
         if train_dataset is not None:
             # Create train feature from dataset
             train_dataset = train_dataset.map(
@@ -154,7 +144,7 @@ def preprocess_function(examples):
                 desc="Running tokenizer on train dataset",
             )
 
-        eval_dataset = raw_datasets.get("validation")
+        eval_dataset = dataset.get("validation")
 
         if eval_dataset is not None:
             column_names = eval_dataset.column_names
@@ -167,78 +157,3 @@ def preprocess_function(examples):
         tokenized_datasets = {"train": train_dataset, "validation": eval_dataset}
 
         return tokenized_datasets
-
-
-class DPOFuneTuning:
-    def __init__(self, config):
-        self.config = config
-        self.torch_dtype = (
-            self.config["Dataset"]["torch_dtype"]
-            if self.config["Dataset"]["torch_dtype"] in ["auto", None]
-            else getattr(torch, self.config["Dataset"]["torch_dtype"])
-        )
-
-    def get_model(self):
-        # load policy model
-        model = AutoModelForCausalLM.from_pretrained(
-            self.config["General"]["base_model"],
-            config=self.config,
-            low_cpu_mem_usage=True,
-            torch_dtype=self.torch_dtype,
-            use_auth_token=True if self.config["General"]["config"]["use_auth_token"] else None,
-        )
-        model.config.use_cache = False
-        return model
-
-    def get_model_ref(self):
-        # load reference model
-        model_ref = AutoModelForCausalLM.from_pretrained(
-            self.config["General"]["base_model"],
-            config=self.config,
-            low_cpu_mem_usage=True,
-            torch_dtype=self.torch_dtype,
-            use_auth_token=True if self.config["General"]["config"]["use_auth_token"] else None,
-        )
-        model_ref.config.use_cache = False
-        return model_ref
-
-    def dpo_train(self, training_args, tokenized_datasets, tokenizer):
-        from trl import DPOTrainer
-
-        lora_config = self.config["General"].get("lora_config", None)
-        return DPOTrainer(
-            self.get_model(),
-            self.get_model_ref() if lora_config is not None else None,
-            args=training_args,
-            beta=self.config["Training"].get("beta"),
-            train_dataset=tokenized_datasets["train"],
-            eval_dataset=tokenized_datasets["validation"]
-            if tokenized_datasets.get("validation") is not None
-            else None,
-            tokenizer=tokenizer,
-            peft_config=LoraConfig(**lora_config) if lora_config is not None else None,
-            max_length=self.config["Dataset"].get("max_length"),
-            max_prompt_length=self.config["Dataset"].get("max_prompt_length"),
-        )
-
-
-class GaudiDPOFuneTuning(DPOFuneTuning):
-    def dpo_train(self, training_args, gaudi_config, tokenized_datasets, tokenizer):
-        from optimum.habana.trl import GaudiDPOTrainer as DPOTrainer
-
-        lora_config = self.config["General"].get("lora_config", None)
-        return DPOTrainer(
-            self.get_model(),
-            self.get_model_ref() if lora_config is not None else None,
-            args=training_args,
-            gaudi_config=gaudi_config,
-            beta=self.config["Training"].get("beta"),
-            train_dataset=tokenized_datasets["train"],
-            eval_dataset=tokenized_datasets["validation"]
-            if tokenized_datasets.get("validation") is not None
-            else None,
-            tokenizer=tokenizer,
-            peft_config=LoraConfig(**lora_config) if lora_config is not None else None,
-            max_length=self.config["Dataset"].get("max_length"),
-            max_prompt_length=self.config["Dataset"].get("max_prompt_length"),
-        )
@@ -0,0 +1,129 @@
+#
+# Copyright 2023 The LLM-on-Ray Authors.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+#
+import torch
+import transformers
+from peft import LoraConfig
+from transformers import AutoModelForCausalLM
+from typing import Dict
+
+from llm_on_ray.finetune.data_preprocess import DPOIntelOrcaPreprocesser
+from itertools import chain
+
+from llm_on_ray.finetune.finetuning import Finetuning
+
+IGNORE_INDEX = -100
+
+
+class DPOFineTuning(Finetuning):
+    def tokenize_dataset(self, config: Dict, tokenizer, dataset):
+        print("tokenize_dataset")
+        print(dataset)
+        config["Dataset"].get("group", True)
+        config["Dataset"].get("block_size", 512)
+        tokenizer.pad_token = tokenizer.eos_token
+        tokenized_dataset = DPOIntelOrcaPreprocesser.tokenize_dataset(config, tokenizer, dataset)
+        print(tokenized_dataset)
+        return tokenized_dataset
+
+    def load_model(self, config: Dict):
+        model_name = config["General"]["base_model"]
+        model_dtype = self.convert_dtype(config["Training"].get("mixed_precision", "no"))
+        model_config = config["General"].get("config", {})
+        model = transformers.AutoModelForCausalLM.from_pretrained(
+            model_name, torch_dtype=model_dtype, **model_config
+        )
+
+        egc = config["General"].get("enable_gradient_checkpointing", False)
+        if egc:
+            model.enable_input_require_grads()
+            model.gradient_checkpointing_enable()
+            model.config.use_cache = False
+
+        model.to(dtype=model_dtype, device=torch.device(config["Training"]["device"]))
+
+        return model
+
+    def load_model_ref(self, config: Dict):
+        model_name = config["General"]["base_model"]
+        model_dtype = self.convert_dtype(config["Training"].get("mixed_precision", "no"))
+        model_config = config["General"].get("config", {})
+
+        # load reference model
+        model_ref = transformers.AutoModelForCausalLM.from_pretrained(
+            model_name, torch_dtype=model_dtype, **model_config
+        )
+
+        model_ref.config.use_cache = False
+        model_ref.to(dtype=model_dtype, device=torch.device(config["Training"]["device"]))
+
+        return model_ref
+
+    def get_trainer(self, config: Dict, model, tokenizer, tokenized_dataset, data_collator):
+        device = config["Training"]["device"]
+        lora_config = config["General"].get("lora_config", None)
+
+        if device in ["cpu", "gpu"]:
+            from transformers import Trainer, TrainingArguments
+            from trl import DPOTrainer
+
+            training_args = self.convert_to_training_args(TrainingArguments, config)
+
+            trainer = DPOTrainer(
+                model,
+                self.load_model_ref(config) if lora_config is not None else None,
+                args=training_args,
+                beta=config["Training"].get("beta"),
+                train_dataset=tokenized_dataset["train"],
+                eval_dataset=tokenized_dataset["validation"]
+                if tokenized_dataset.get("validation") is not None
+                else None,
+                tokenizer=tokenizer,
+                peft_config=LoraConfig(**lora_config) if lora_config is not None else None,
+                max_length=config["Dataset"].get("max_length"),
+                max_prompt_length=config["Dataset"].get("max_prompt_length"),
+            )
+        elif device in ["hpu"]:
+            from optimum.habana.trl import GaudiDPOTrainer as DPOTrainer
+            from optimum.habana.transformers import GaudiTrainingArguments
+            from optimum.habana import GaudiConfig
+
+            # If gaudi_config_name is provided, load gaudi_config from huggingface model hub(https://huggingface.co/Habana), otherwise use default gaudi_config
+            gaudi_config_name = config["General"].get("gaudi_config_name", None)
+            if gaudi_config_name is not None:
+                gaudi_config = GaudiConfig.from_pretrained(gaudi_config_name)
+            else:
+                gaudi_config = GaudiConfig()
+                gaudi_config.use_fused_adam = True
+                gaudi_config.use_fused_clip_norm = True
+
+            training_args = self.convert_to_training_args(GaudiTrainingArguments, config)
+            trainer = DPOTrainer(
+                model,
+                self.load_model_ref(config) if lora_config is not None else None,
+                args=training_args,
+                gaudi_config=gaudi_config,
+                beta=config["Training"].get("beta"),
+                train_dataset=tokenized_dataset["train"],
+                eval_dataset=tokenized_dataset["validation"]
+                if tokenized_dataset.get("validation") is not None
+                else None,
+                tokenizer=tokenizer,
+                peft_config=LoraConfig(**lora_config) if lora_config is not None else None,
+                max_length=config["Dataset"].get("max_length"),
+                max_prompt_length=config["Dataset"].get("max_prompt_length"),
+            )
+
+        return training_args, trainer